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内 容 简 介 


本 书 是 教育 部 阿里 云 产 学 合作 项 目 规划 教材 , 书 中 全 面 介绍 互联 网 大 数据 处 理 的 主要 理论 和 技术 。 
全 书 共 分 为 四 大 部 分 :概述 ,互联 网 大 数据 的 获取 、 互 联网 大 数据 的 结构 化 处 理 与 分 析 技 术 .综合 应 用 。 在 
第 1 部 分 “概述 "中 首先 对 信息 时 代 的 技术 变迁 进行 了 回顾 和 归纳 ,指出 了 人 类 进入 大 数据 时 代 的 必然 性 
及 其 基本 特征 ,然后 分 析 了 互联 网 大 数据 的 特点 ,接着 对 互联 网 大 数据 的 相关 技术 进行 了 归纳 和 分 析 , 最 
后 指出 了 互联 网 大 数据 技术 的 发 展 。 第 2 部 分 是 “互联 网 大 数据 的 获取 ”, 包 括 原始 数据 的 获取 和 数据 提 
取 技 术 , 对 网 络 息 虫 的 内 核 技 术 、 主 题 仆 虫 技术 、 动 态 Web 页 面 获取 技术 、 微 博信 息 内 容 获 取 技 术 、 
DeepWeb 数据 获取 技术 .反扑 虫 技术 、 反 反 息 虫 技 术 、Web 页 面 内 容 提取 技术 进行 介绍 。 在 第 3 部 分 “互联 
网 大 数据 的 结构 化 处 理 与 分 析 技 术 ” 中 ,全 面 介绍 结构 化 处 理 技术 、 大 数据 语义 分 析 技 术 、 大 数据 分 析 的 模 
型 与 算法 ,大 数据 隐私 保护 、 大 数据 技术 平台 ,内 容 涵盖 了 互联 网 大 数据 处 理 与 分 析 的 主要 方面 。 第 4 部 
分 是 关于 互联 网 大 数据 技术 的 综合 应 用 ,以 个 性 化 新 闻 推荐 为 应 用 背景 ,运用 阿里 云 大 数据 技术 平台 将 本 
书 介绍 的 一 些 关键 技术 、 模 型 和 平台 贯穿 在 一 起 。 

本 书 可 作为 高 等 院 校 计算 机 信息、 软件、 大 数据 等 相关 专业 研究 生 和 高 年 级 本 科 生 的 教材 ,也 可 作为 
计算 机 、 信 息 、 软 件 、 大 数据 等 领域 研究 人 员 和 专业 技术 人 员 的 参考 书 。 
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DT 时 代 的 数据 思维 与 智能 思维 


本 套 云 计算 大 数据 丛书 出 版 正 值 信 息 科 技 领域 进入 新 一 轮 巨变 ,中 国 经 济 面临 转型 机 
过 的 特殊 时 期 。 全 球 信息 科技 行业 伴随 着 云 计算 、 大 数据 、 物 联网 .人工 智 能 的 发 展 即将 进 
人 一 个 泛 智能 的 时 代 , 云 计算 成 为 数字 经 济 的 基础 设施 ; 数据 驱动 , 泛 在 智能 成 为 各 行 各 业 
转型 升级 的 基础 ,不 仅 传统 的 IT 从 业 人 员 面 临 能 力 升级 ,大 多 数 在 校 大 学 生 也 面临 新 一 轮 
知识 体系 的 更 新 ,各 个 垂直 行业 面临 新 一 轮 的 人 才 升级 。 新 一 代 人 才 教育 与 培训 ,需要 一 套 
产 学 一 体 的 培训 课程 体系 ,这 是 阿里 云 愿意 投身 云 计算 大 数据 网 络 安 全 人 才 培 养 体系 的 时 
代 背 景 。 云 计算 、 大 数据 、 网 络 安 全 不 仅 关乎 网 络 强 国 的 大 使 命 ,也 逐步 成 为 各 行 各 业 专 业 
人 才 的 “元 学 科 ”, 会 逐步 成 为 高 等 与 职业 教育 的 通 识 课程 ,一 些 发 达 国 家 已 经 在 中 小 学 立法 
普及 编程 课 ,已 经 开始 指向 这 个 趋势 。“ 懂 云 计算 ,有 数据 思维 ,理解 智能 化 ”, 未 来 可 能 是 每 
一 个 工程 技术 人 员 与 专业 人 士 的 必要 素质 。 

2016 年 开始 ,全球 信 息 科 技 进 入 一 个 新 的 加 速 爆 发 周期 ,可 能 发 生 的 大 概率 事件 是 : 
二 十 年 之 内 ,有 一 半 的 人 类 知识 工作 者 会 被 人 工 智 能 蔡 代 ,有 服务 能 力 的 机 器 人 会 诞生 ,全 
世界 的 产业 工人 会 少 于 机 器 人 ; 虚拟 现实 和 增强 现实 会 奉 代 今天 的 智能 手机 , 变 成 一 个 新 
的 入口; 各 行 各 业 都 会 需要 基于 物 联网 的 智能 化 “中 国 制 造 ” 会 成 为 广泛 意义 的 "中国 
智 造 ”。 

新 一 轮 科技 带 来 了 生活 方式 的 变革 生产 方 式 的 变革 ,还 有 学 习 方式 的 变革 ,这 几 个 趋 
势 的 背后 ,是 云 计 算 作为 一 种 普 惠 科技 的 基础 设施 ,大 数据 成 为 新 能 源 , 智 能 化 成 为 一 种 新 
常识 。 

2016 年 ,全 世界 的 短视 频 总 量 增长 了 6 倍 , 直 播 业 务 在 中 国 增长 了 10 售 , 远 在 偏远 小 
镇 的 青年 可 以 通过 直播 做 电子 商务 ,转化 率 可 以 提升 十 倍 以 上 。 当 一 个 技术 的 使 用 成 本 趋 
近 于 零 的 时 候 , 会 带 来 广泛 的 社会 效应 。 十 年 以 前 的 直播 只 有 电视 台 能 做 ,需要 专门 的 摄像 
机 等 设备 ,而 今天 的 直播 只 需要 一 个 手机 ,而 且 是 多 对 多 带 互动 的 。 无 论 是 短视 频 , 还 是 直 
播 , 背 后 都 有 云 计 算 作为 普 惠 科技 的 支撑 作用 ,由 此 带 来 的 ,所 有 与 知识 传播 有 关 的 教育 , 包 
括 整个 内 容 行业 ,都 会 被 它 改 变 , 随 着 大 数据 和 人 工 智能 的 加 入 ,人 类 学 习 的 方式 交互 性 会 
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更 强 ,* 学 习 系统 ”会 根据 不 同人 的 理解 程度 做 个 性 化 的 推荐 与 辅导 。 

这 意味 着 知识 生产 与 知识 传播 方式 的 根本 性 转变 ,这 个 恰恰 是 云 计算 .人 工 智能 等 科技 
与 各 行 各 业 产生 化 学 反应 的 交叉 点 .数据 是 这 个 转变 的 新 能 源 。 

在 2016 年 10 月 ,阿里 云 和 法 院 系统 合作 ,发布 了 一 个 面向 法 律 服务 的 智能 应 用 “法 小 
淘 ”, 通 过 把 数 千 万 份 法 律 判 例文 本 化 ,* 法 小 淘 ” 智 能 应 用 可 以 为 普通 老百姓 以 及 初级 律师 
提供 * 打 官司 "的 咨询 服务 ,根据 用 户 输 入 的 案件 信息 给 出 建议 ,包括 推荐 合适 的 律师 。 和 貌似 
与 科技 远离 的 法 律 服务 也 用 上 了 人 工 智能 ,这 是 垂直 行业 泛 智能 化 的 一 个 小 例子 。 

中 国 制造 进入 智能 时 代 

在 工业 界 ,阿里 云 跟 中 石化 合作 ,协助 他 们 做 了 企业 的 电 商 平台 ; 与 徐工 合作 ,推动 工 
厂 基于 工业 云 的 智能 化 ; 与 上 汽 合作 ,推出 具有 智能 服务 的 互联 网 汽车 ,都 收 到 积极 的 市 场 
反馈 。 中 国 制造 ,面临 智能 化 的 产业 机 遇 , 借 助 互联 网 人 口 和 产业 布局 两 大 优势 成 为 未 来 的 
第 一 个 智能 产品 制造 国 。 

在 接 下 来 的 几 年 ,互联 网 + 智能 制造 的 乔 加 会 在 很 多 个 垂直 领域 出 现 , 数 据 智能 与 制造 
业 结 合 , 产 生 * 跨 界 重 混 "的 效果 ,甚至 制造 业 就 不 是 以 制造 为 主 ,而 是 以 服务 化 为 主 。 这 个 
巨大 的 重 构 背后 依赖 云 和 大 数据 。 也 因为 这 个 需求 ,我 们 可 预见 工业 企业 对 云 计算 大 数据 
人 才 的 需求 会 越 来 越 强烈。 

“创业 化 生存 ”与 共享 经 济 的 兴起 

创业 化 ,会 成 为 一 种 常态 , 越 来 越 多 的 年 轻 人 开始 告别 公司 ,兴起 中 的 数字 经 济 体 都 是 
基于 云 平台 的 网 络 化 协作 组 织 ; 云 计算 成 为 共享 经 济 的 超级 容器 ,催生 新 一 代 创业 者 和 * 斜 
杠 青年 "。 十 年 以 后 ,或 许 一 半 以 上 的 从 业者 都 是 “ 斜 杠 青年 ", 今 天 美国 就 有 数 千 万 人 是 路 
工作 、 跨 公司 的 “ 斜 本 青年 "。 

过 去 十 年 , 云 计算 使 得 创业 公司 的 创业 门槛 降低 了 10 倍 ,没有 云 计算 , Airbnb、 
NetFlix, 推 特 .Uber 等 公司 不 可 能 这 么 快 成 长 壮大 ,新 一 代 创业 者 的 一 个 核心 能 力 就 是 要 
仅 技术 ,理解 数据 和 算法 的 价值 ,缺少 技术 理解 力 的 创业 者 将 面临 更 大 的 同 质 化 压力 。 一 名 
话 ,无 论 是 草根 创业 ,还 是 做 一 个 * 斜 杠 青年 ", 必 要 的 数据 思维 是 生存 本 能 。 

创业 化 和 共享 经 济 的 嘱 起 ,有 赖 于 云 计算 作为 基础 设施 .大 数据 作为 新 能 源 的 全 新 范 
式 ,新 一 代 创 业 公司 需要 大 量 的 科技 人 才 。 

在 未 来 的 经 济 环境 里 , 普 囊 云 科技 的 基础 设施 化 ,制造 的 智能 化 ,软件 的 泛 化 以 及 数据 
无 处 不 在 ,是 一 个 大 趋势 ,并 且 不 断 向 各 行 各 业 渗透 。 本 套 从 书 就 是 希望 在 这 个 普 惠 科技 与 
各 行 各 业 深 度 融 合 的 时 代为 下 一 代 科 技 人 才 的 培养 提供 更 多 产业 界 的 经 验 与 实践 。 

感谢 清华 大 学 出 版 社 出 版 本 套 云 计算 与 大 数据 方面 的 系列 教材 。 感 谢 各 位 高 校 老 师 的 
辛苦 努力 和 用 心 付出 ,使 得 本 系列 教材 能够 付 梓 出 版 。 
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互联 网 技术 及 应 用 进入 一 个 高 速 发 展 时 期 ,那些 随手 可 得 的 互联 网 应 用 深刻 地 影响 着 
社会 经 济 的 发 展 ,改变 了 人 们 衣食 住 行 . 吃 喝 玩 乐 的 生活 方式 ,人 们 对 互联 网 的 依赖 度 逐 年 
提升 。 网 络 数字 化 生活 形态 的 形成 .促进 了 互联 网 数据 的 累积 ,大 数据 由 此 成 为 互联 网 技术 
应 用 的 新 鲜血 液 , 并 将 成 为 今后 很 长 一 段 时 期 内 各 方 关 注 的 焦点 。 互 联网 大 数据 处 理 的 理 
论 .技术 及 其 应 用 与 社会 经 济 各 个 领域 的 融合 越 来 越 密切 ,相关 领域 的 专业 技术 人 员 人 迫切 需 
要 建立 完整 的 互联 网 大 数据 分 析 应 用 的 知识 体系 ,以 适应 今后 发 展 趋势 的 要 求 。 

本 书 作者 及 其 科研 团队 近 十 年 来 一 直 从 事 互 联网 内 容 分 析 挖 掘 、 网 络 与 情 、 大 数据 、 信 
息 内 容 安全 技术 和 应 用 方面 的 科研 工作 。 在 包括 国家 自然 科学 基金 项 目 在 内 的 各 类 科研 项 
目 支 持 下 ,对 互联 网 信息 获取 和 提取 方法 、 互 联网 信息 内 容 结 构 化 处 理 技术 \ 语 义 分析 技 术 、 
数据 挖掘 的 模型 与 算法 、 社 交 媒 体 中 的 用 户 行为 及 互联 网 金融 等 应 用 领域 开展 了 大 量 研 究 ， 
积累 了 一 定 的 经 验 , 强 烈 希望 把 科研 工作 中 的 体会 和 理解 整理 出 来 。 此 外 ,作者 从 2011 年 
开始 先后 为 复旦 大 学 信息 安全 专业 的 本 科 生 、 研 究 生 开设 了 《信息 内 容 安全 兴 大 数据 安全 》 
等 课程 ,经 过 多 年 的 教学 实践 , 了解 了 学 生 的 学 习 需 求 ,积累 了 较为 充足 的 讲义 和 素材 。 
2016 年 5 月 ,教育 部 联合 阿里 云 计算 有 限 公 司 等 单位 发 起 了 产 学 合作 专业 综合 改革 项 目 ， 
确定 了 包括 大 数据 在 内 的 多 个 新 技术 方向 的 教材 编写 目标 ,以 产 学 结合 来 推动 高 校 教材 和 
课程 的 改革 。 本 书 的 编写 正 是 在 该 综合 改革 项 目的 支持 和 推动 下 进行 的 ,是 第 一 本 系统 讲 
述 互联 网 大 数据 处 理 技 术 及 应 用 的 教材 和 专业 参考 书 。 

本 书 在 知识 结构 上 ,试图 覆盖 互联 网 大 数据 处 理 与 应 用 的 完整 知识 体系 ;在 内 容 上 , 尽 
量 做 到 深入 浅 出 , 既 考 虑 知识 的 基础 性 ,也 兼顾 技术 发 展 方向 和 前 沿 。 本 书 全 面 介 绍 互联 网 
大 数据 处 理 与 应 用 中 的 主要 理论 和 技术 ,分 为 概述 、 互 联网 大 数据 的 获取 、 大 数据 的 结构 化 
处 理 与 分 析 技 术 和 综合 应 用 四 大 部 分 ,涉及 互联 网 大 数据 处 理 技 术 的 各 个 方面 .侧重 于 基本 
原理 和 实践 技术 的 介绍 ,特别 是 较为 系统 全 面 地 介绍 互联 网 大 数据 获取 ,分 析 挖 掘 的 各 种 技 
术 , 并 融合 了 阿里 云 计 算 大 数据 平台 的 一 些 先进 思想 和 业界 的 实践 经 验 。 

本 书 作 为 一 本 产 学 兼顾 的 教材 ,具有 如 下 特色 。 

(1) 针对 互联 网 大 数据 ,从 大 数据 的 获取 到 可 视 化 展示 与 发 布 的 整个 过 程 ,帮助 学 生 建 
立 完整 的 知识 体系 。 侧 重 于 非 结 构 化 数据 处 理 与 分 析 , 由 于 传统 的 结构 化 数据 分 析 技 术 相 
对 比较 成 熟 ,因此 这 种 安排 将 有 助 于 读者 接触 到 更 多 的 大 数据 核心 关键 技术 。 























V ) 互联 网 大 数据 处 理 技术 与 应 用 


(2) 除了 一 些 比较 基础 性 的 知识 外 ,在 各 个 章节 还 融入 了 作者 在 教学 和 科研 中 所 积累 
的 一 些 值得 深入 探讨 的 问题 和 观点 ,具有 一 定 的 启发 性 。 

(3) 理论 与 实践 相 结合 ,各 个 章节 既 包含 技术 原理 介绍 ,也 包含 实现 技术 .开源 架构 等 
方面 的 叙述 ,使 得 读者 能 从 中 掌握 技术 应 用 及 实现 方法 。 

(4) 注重 产 学 结合 ,基于 阿里 云 及 其 大 数据 平台 ,构建 了 综合 应 用 实例 ,有 效 地 集成 运 
用 了 本 书 的 一 些 关 键 技术 ,帮助 读者 深入 理解 大 数据 处 理 技术 。 

全 书 由 曾 剑 平 负责 内 容 安 排 , 统 稿 .由 互联 网 大 数据 处 理 技术 和 应 用 研究 领域 的 一 线 人 
员 参 与 编写 。 书 中 各 章 的 编写 人 员 安 排 : 第 1 章 由 曾 剑 平 . 段 江 娇 编写 ,第 2 章 由 曾 剑 平 、 
段 江 娇 . 胡 源 编写 ,第 3 章 由 曾 剑 平 . 胡 源 编 写 ,第 4 章 由 曾 剑 平 、 张 硕 编写 ,第 5 章 由 曾 剑 
平 , 段 江 娇 、 毛 天 吴 编 写 ,第 6 章 由 曾 剑 平 、 张 硕 、 段 江 娇 、 毛 天 吴 编 写 ,第 7 章 由 张 泽 文 、 吴 
爽 . 曾 剑 平 编写 ,第 8 章 由 曾 剑 平王 欣 编写 ,第 9 章 由 曾 剑 平 . 黄 智 行 编写 。 男 外 , 黄 智 行 对 
第 5 章 的 CRF 应 用 实例 的 部 分 程序 及 第 9 章 的 个 性 化 新 闻 推 荐 系统 进行 了 实现 。 本 书 在 
编写 过 程 中 ,得 到 了 阿里 云 计算 有 限 公司 的 李 妹 芳 女 士 的 大 力 支持 ,在 产 学 合作 教材 编写 项 
目 申请 ,立项 、 跟 踪 、 结 题 \ 应 用 案例 构建 ,以 及 相关 的 文字 表达 方面 给 予 了 很 多 帮助 和 指导 。 
阿里 云 计 算 有 限 公 司 的 宁 尚 兵 先 生 在 阿里 云 平台 和 大 数据 平台 的 使 用 、 开 发 方面 也 给 了 大 
力 的 支持 和 帮助 ,阿里 云 计算 有 限 公司 的 多 位 技术 专家 对 本 书 的 结构 和 知识 安排 提出 了 有 
益 的 建议 。 清 华 大 学 出 版 社 的 编辑 们 为 本 书 的 出 版 和 编辑 花费 了 很 多 心思 。 复 旦 大 学 计算 
机 科学 技术 学 院 汪 卫 教授 中国 科 学 院 计算 技术 研究 所 新 小 龙 副 研究 员 对 本 书 进行 了 审阅 ， 
提出 了 宝贵 的 意见 。 此 外 ,在 本 书 的 编写 过 程 中 ,参考 和 引用 了 许多 作者 发 表 的 各 种 论文 、 
技术 报告 ,我 们 均 已 在 参考 文献 中 列 出 。 在 此 ,一 并 表示 衷心 的 感谢 。 

由 于 互联 网 大 数据 处 理 与 应 用 技术 所 涉及 的 内 容 广泛 ,许多 技术 仍 在 不 断 发 展 中 ,所 以 
本 书 在 内 容 选 择 及 编写 上 从 深度 和 广度 做 了 精心 的 安排 。 尽 管 编写 组 成 员 最 近 5 个 月 来 全 
身心 投入 ,对 每 个 技术 要 点 尽量 清楚 地 描述 ,但 由 于 时 间 仓 促 及 作者 的 学 识 水 平 限制 , 书 中 
难免 存在 不 足 之 处 和 朴 忽 ,恳请 读者 不 音 批评 指正 ,以 利于 再 版 修订 完善 。 

读者 可 关注 微 信 公众 号 IntBigData(“ 互 联网 大 数据 处 理 技术 与 应 用 ”) ,订阅 与 该 书 内 
容 相关 的 文章 ,并 与 作者 互动 。 
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本 章 对 互联 网 大 数据 及 其 相关 技术 进行 了 概述 ,总 结 了 信息 技术 发 展 过 程 和 规律 ,指出 
人 类 社会 进入 数据 时 代 , 发展 数 据 技术 的 必然 性 ; 从 大 数据 的 特点 .思维 .产业 等 方面 做 了 
一 些 探讨 和 分 析 , 归 纳 并 描述 了 互联 网 大 数据 的 特点 ; 着 重 对 互联 网 大 数据 处 理 的 技术 体 
系 进行 了 曾 述 ,解释 了 其 中 的 相关 技术 ,包括 数据 采集 ,结构 化 处 理 , 模 型 与 算法 平台 技术 
等 ; 对 互联 网 大 数据 技术 的 发 展 进行 了 展望 ,最 后 给 出 了 本 书 的 章节 安排 说 明 。 


1.1 从 IT 走 向 DT 


自从 信息 技术 开始 运用 于 解决 各 种 日 常事 务 处 理 问题 以 来 ,各 种 软 硬 件 设备 和 网 络 建 
设 投资 规模 不 断 增加 ,各 行业 构建 了 具备 一 定 规模 的 信息 化 系统 ,有力 地 促进 了 企 事业 单位 
生产 经 营 和 管理 革新 。 在 这 个 过 程 中 ,互联 网 的 出 现 为 信息 化 注入 新 的 思维 , 极 大 地 拓展 了 
原 有 信息 系统 的 时 空 维 度 。 从 Web 1.0 到 Web 2.0, 互 联网 应 用 中 所 形成 的 新 思维 更 是 导 
致 这 种 时 空 维度 发 生 了 质 的 变化 ,互联 网 技术 与 各 行业 的 生产 经 营 和 管理 过 程 进 行 了 深度 
融合 ,并 成 为 当今 时 代 最 为 活路 的 资本 市 场 热点 。 信 息 化 .Web 1.0、Web 2.0 的 演化 进程 
中 累积 了 大 量 数据 ,在 信息 化 建设 进入 相对 稳定 状态 时 .人 们 开始 意识 到 这 些 数据 的 价值 ， 
期 待 从 数据 中 发 现 一 些 人 工分 析 所 无 法 得 到 的 知识 ,从 而 推动 经 营 管理 进入 新 的 阶段 。 


1.1.1 信息 化 与 web 时 代 


在 20 世纪 八 九 十 年 代 信息 化 建设 初期 ,人 们 面 对 的 是 复杂 而 又 重复 的 业务 和 管理 流 
程 ,迫切 需要 运用 信息 技术 手段 来 将 人 们 从 这 种 重复 劳动 中 解放 出 来 ,简化 操作 流程 ,提高 
工作 效率 。 因 此 ,在 这 个 阶段 .一些 复杂 且 重 复 的 工作 任务 成 为 信息 化 的 首选 目标 。 企 业 资 
源 规划 (ERP) 、 企 业 生产 过 程 管理 .人 力 资源 管理 、 财 务 管理 等 是 这 个 阶段 的 典型 代表 。 为 
此 ,人 们 构建 了 支撑 这 类 信息 化 系统 运行 所 必需 的 软 硬 件 设 备 ` 企 业内 部 互联 网 络 
(Intranet) ,开发 了 相应 的 应 用 软件 ,有 力 地 保障 了 信息 系统 的 运行 。 随 着 信息 化 分 工 的 进 
一 步 细 化 ,大 量 的 基础 网 络 技术 、 基 础 软 硬 件 系统 成 为 一 个 独立 的 行业 逐步 得 到 发 展 , 各 种 
操作 系统 数据库 系统 ,主机 设备 .行业 软件 系统 等 成 为 这 个 阶段 最 主要 的 产品 ,而 它们 反 过 
来 也 使 得 人 们 在 构建 信息 技术 平台 时 不 需要 从 头 开始 ,而 可 以 实现 一 种 组 装 式 的 构建 方法 ， 
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因此 极 大 地 加 快 了 信息 化 进程 。 

在 20 世纪 90 年 代 前 后 ,中 国 开始 小 规模 接 人 互联 网 (Internet) 。 在 初始 阶段 ,互联 网 
应 用 以 浏览 型 业务 为 主 , 即 所 谓 的 Web 1.0 时 代 。 众 多 的 互联 网 内 容 提供 商 (ICP) 构 建 了 
专门 的 网 站 ,为 网 民 提供 信息 服务 。 典 型 的 就 是 各 类 新 闻 网 站 、 信 息 聚 合 网 站 和 企 事业 单位 
的 门户 网 站 ,它们 提供 了 国内 外 新 闻 信 息 、 企 事业 单位 介绍 ,活动 安排 ,政策 规定 等 信息 发 布 
场所 。 众 多 的 互联 网 服务 提供 商 (ISP) 为 网 民 提 供 各 种 接 人 互联 网 的 途径 ,如 PSTN 拨号 、 
专线 、 分 组 技术 等 ,但 是 由 于 接 人 技术 的 限制 ,带宽 一 般 都 不 高 ,大 都 只 能 达到 开 级 ,因此 ， 
ICP 提供 的 信息 内 容 形 式 上 比较 单一 ,相对 于 图 片 、 视 频 等 多 媒体 内 容 而 言 ,文本 内 容 的 占 
比 要 高 得 多 。 

随 着 用 户 端 接 入 技术 的 发 展 和 带宽 的 提高 ,人 们 不 满足 于 简单 的 信息 浏览 ,而 是 对 信息 
交互 提出 了 越 来 越 高 的 需求 。 用 户 体验 ,用户 为 中 心 的 思维 得 到 了 ICP 的 关注 ,由 此 ,从 
Web 1.0 转 而 进入 Web 2.0 时 代 。 作 为 一 个 概念 ,Web 2.0 是 2004 年 始 于 出 版 社 经 营 者 
O'Reilly 和 MediaLive International 之 间 的 一 场 头脑 风暴 论坛 。 相 比 于 Web 1.0,Web 2.0 
则 更 注重 用 户 的 交互 作用 ,用 户 既 是 网 站 内 容 的 浏览 者 ,也 是 网 站 内 容 的 创造 者 。 一 个 直观 
的 例子 就 是 从 Web 1.0 的 个 人 网 站 到 Web 2.0 的 博客 进化 。 个 人 网 站 提供 了 关于 个 人 信 
息 的 介绍 和 发 布 (Homepage) ,但 个 人 并 无 法 在 网 站 上 与 浏览 者 进行 交流 沟通 ,也 无 法 得 到 
浏览 者 的 反馈 信息 。 博 客 虽然 也 是 个 人 信息 发 布 的 场合 ,但 是 个 人 不 但 可 以 灵活 地 在 网 站 
上 修改 和 发 布 各 种 信息 ,而 且 浏览 者 可 以 进行 评论 ,并 与 博客 主人 进行 交互 。 因 此 ,作为 
Web 2.0 应 用 , 它 人 允许 用 户 参 与 网 站 内 容 生成 ,实现 用 户 与 网 站 ,用 户 与 用 户 之 间 的 交互 。 
典型 的 Web 2.0 应 用 有 网 络 论坛 .公告 板 (BBS) ,博客 (Blog)、 信 息 聚 合 (RSS) .百科 全 书 
(Wiki) ,社会 网 络 (SNS) 、 对 等 网 络 (P2P) .即时 信息 (IM) 等 。 然 而 Web 2.0 初期 的 这 些 应 
用 看 起 来 只 是 为 了 满足 人 们 日 益 增 长 的 娱乐 和 休闲 需求 .与 企 事业 信息 化 系统 之 间 的 联系 
并 不 很 紧密 。 因 此 ,提供 服务 的 网 站 除了 广告 收入 以 外 ,就 难以 有 其 他 的 收入 来 源 , 网 站 自 
身 的 生存 也 成 了 最 主要 的 问题 。 

寻找 新 的 商业 模式 关乎 到 生存 发 展 ,就 成 为 互联 网 应 用 提供 商 急 切 需 要 解决 的 问题 , 眼 
光 自 然而 然 就 投向 了 传统 的 生产 经 营 等 领域 。 将 传统 的 零售 过 程 搬 到 互联 网 上 则 是 第 一 道 
突破 ,电子 商务 由 此 成 为 一 种 比较 早期 的 被 挖掘 出 来 的 新 应 用 。1997 年 年 底 在 加 拿 大 温 哥 
华 举行 的 第 五 次 亚太 经 合 组 织 非 正式 首脑 会 议 (APEC) 上 美国 总 统 克林顿 提出 敦促 各 国共 
同 促进 电子 商务 发 展 的 议案 ,其 引起 了 各 国 首脑 的 关注 。 在 国内 ,各 个 行业 所 涉及 的 销售 等 
商业 过 程 都 成 为 电子 商务 的 现实 样 例 ,1999 年 3 月 8848 等 B2C 网 站 正式 开通 ,标志 着 网 上 
购物 进入 实际 应 用 阶段 。 此 后 ,B2B、B2C、C2C、B2M、0O20O 等 各 种 形式 的 电子 商务 层 出 不 
穷 ,成 为 互联 网 资本 市 场 扎 踪 的 目标 。 

Web 2.0 时 代 所 形成 的 共享 .开放 ,免费 ,去 中 心 化 等 优秀 的 互联 网 思想 ,继续 不 断 地 指 
引 着 各 个 传统 行业 依靠 互联 网 创造 新 的 商业 模式 。 最 近 几 年 来 .出现 了 各 种 各 样 的 网 上 服 
务 , 如 网 上 交易 、 网 上 订餐 、 网 上 约 车 .网 上 租房 .网 上 婚恋 等 。 在 这 种 背景 下 ,传统 行业 找到 
了 与 互联 网 结合 的 有 效 模式 ,已 有 的 信息 化 成 果 也 就 与 互联 网 有 了 越 来 越 密切 的 联系 , 即 所 
谓 的 线 下 线 上 融合 。 至 此 .信息 化 与 Web 1.0、Web 2.0 的 进化 终于 走 到 了 同一 条 战线 上 ， 
信息 化 进入 了 一 个 盘 新 的 时 代 。 
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1.1.2 大 数据 时 代 


信息 化 与 Web 时 代 中 建设 的 各 类 信息 系统 经 过 持续 的 运行 ,已 经 累积 了 大 量 数据 ,并 
且 这 种 数据 产生 速度 也 正在 不 断 加 快 。 根 据 IBM 的 研究 ,整个 人 类 文明 所 获得 的 全 部 数据 
中 ,有 90% 是 过 去 两 年 内 产生 的 。 而 到 了 2020 年 ,全 世界 所 产生 的 数据 规模 将 达到 今天 的 
44 倍 。 而 IDC 报告 显示 ,预计 到 2020 年 全 球 数据 总 量 将 超过 40ZB( 相 当 于 4 万 亿 GB) ,在 
过 去 几 年 ,全 球 的 数据 量 以 每 年 58% 的 速度 增长 ,在 未 来 这 个 速度 会 变 得 更 快 。 

在 软 硬 件 和 基础 网 络 建设 基本 完善 后 , 面 对 不 断 增 多 的 数据 , 越 来 越 多 的 人 意识 到 这 些 
数据 中 蕴含 着 大 量 有 价值 的 信息 ,于 是 开始 把 眼光 投向 了 各 种 系统 中 所 保存 的 海量 数据 。 
在 技术 和 应 用 的 创新 思想 驱动 下 ,提出 了 对 这 些 数据 进行 分 析 挖 掘 的 需求 ,数据 因此 成 为 应 
用 的 核心 和 关注 的 新 焦点 ,相应 的 理论 和 技术 问题 等 待 着 人 们 逐一 去 解决 。 

围绕 着 数据 价值 的 发 现 和 利用 ,大 数据 时 代 将 体现 出 以 下 重要 特征 。 

(1) 数据 收集 既是 一 种 技术 ,也 是 一 种 业务 。 由 于 数据 分 散在 不 同 的 系统 中 ,目标 对 象 
存在 多 源 、 异 构 特征 ,数据 收集 技术 的 复杂 度 大 大 提升 。 各 种 数据 持续 不 断 地 产生 ,将 数据 
收集 过 程 恰当 地 髋 入 到 业务 过 程 中 ,对 于 企 事业 单位 在 整个 社会 数据 空间 中 捕捉 自己 想 要 
的 数据 ,是 非常 重要 的 一 个 环节 。 

(2) 数据 深度 挖掘 和 分 析 技 术 成 为 新 时 代 的 高 科技 。 面 对 海量 数据 ,可 能 是 来 源 于 不 
同 场景 的 数据 ,对 数据 的 关联 和 线索 将 是 一 项 轨 新 的 研究 。 文 本 、 视 频 . 音 频 等 各 种 类 型 数 
据 的 准确 分 析 挖 掘 也 依赖 于 人 工 智能 理论 和 方法 的 发 展 ,特别 是 语义 技术 、 篇 章 理 解 技 术 
等 。 作 为 综合 运用 多 种 先进 理论 和 技术 的 大 数据 分 析 挖掘 自然 成 为 大 家 所 追求 的 高 科技 。 

(3) 数据 隐私 成 为 每 个 人 都 关注 的 话题 。 由 于 每 个 人 的 活动 都 在 信息 技术 的 支撑 下 进 
行 ,个 人 的 各 种 数据 都 将 被 记录 下 来 ,而 且 这 些 数据 经 过 某 种 途径 进行 集中 、\ 融 合 后 ,就 可 能 
会 在 更 广 的 范围 内 泄露 个 人 敏感 信息 ,人 将 变 成 透明 的 人 。 因 此 ,大 数据 时 代 对 数据 隐私 监 
测 和 保护 的 需求 必然 是 每 个 人 所 关注 的 ,相关 技术 和 法 律 保障 就 会 得 到 不 断 发 展 和 完善 。 

(4) 大 数据 技术 与 具体 领域 的 结合 更 加 紧密 。 大 数据 需要 在 应 用 中 才能 体现 出 它 的 价 
值 , 而 价值 的 判断 与 领域 有 直接 关系 ,因此 在 大 数据 时 代 , 具 体 领域 中 的 数据 利用 和 价值 的 
发 现 会 得 到 关注 。 

(5) 大 数据 技术 平台 将 会 成 为 一 种 新 的 信息 基础 设施 。 正 如 在 信息 化 阶段 产生 的 数据 
库 、 操 作 系 统 、 大 型 应 用 软件 ,以 及 Web 时 代 的 搜索 引擎 、 微 博 等 专业 应 用 系统 一 样 ,大 数据 
时 代 中 ,专业 化 .规模 化 的 大 数据 技术 平台 将 有 利于 人 们 更 加 集中 精力 进行 业务 层面 的 价值 
挖掘 ,因此 这 种 新 型 的 信息 基础 设施 是 大 数据 时 代 的 典型 标志 之 一 。 


1.2 互联 网 大 数据 及 其 特点 


目前 各 行业 应 用 领域 讨论 的 大 数据 ,典型 的 是 来 自 于 联机 事务 处 理 (OLTP) 的 数据 ,此 
类 数据 有 以 下 特点 。 

(1) 通常 具有 较 好 的 规范 化 .如 银行 中 的 交易 记录 .企业 的 销售 记录 等 ,数据 记录 的 完 
整 性 ,一致 性 较 好 。 

(2) 数据 时 时 刻 刻 都 在 不 断 增加 .具有 典型 的 数据 流 特征 。 而 在 数据 流 中 , 隐 含 模式 可 
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能 发 生变 化 ,这 种 模式 也 可 能 会 存在 于 很 长 的 数据 流 中 。 

(3) 数据 存在 于 企 事业 单 位 的 联机 系统 中 ,是 用 户 查 询 、 业 务 处 理 的 直接 数据 源 ,因此 ， 
历史 数据 较 少 ,为 了 避免 对 生产 系统 产生 影响 ,不 宜 直接 在 这 种 数据 系统 上 进行 分 析 挖掘 。 

(4) 数据 具有 一 定 的 封闭 性 。 由 于 数据 往往 涉及 单位 自身 的 生产 管理 ,对 这 些 数据 的 
理解 也 只 有 在 本 单位 才 有 意义 ,同时 从 商业 秘密 的 角度 看 ,单位 一 般 也 不 会 轻易 与 其 他 机 构 
共享 这 些 数据 。 

本 书 主要 针对 互联 网 大 数据 ,互联 网 大 数据 是 基于 互 
联网 的 应 用 系统 所 产生 的 各 种 相关 数据 的 集合 。 在 Web 
信息 时 代 , 基 于 互联 网 的 应 用 除了 与 互联 网 架构 有 关 , 还 同 
时 会 涉及 与 企业 原 有 的 业务 处 理 架 构 ( 称 为 内 部 网 )。 例 
如 ,对 于 电子 商务 服务 应 用 来 说 ,基于 互联 网 架构 提供 了 电 
商 交 易 界面 ,而 交易 后 的 很 多 处 理 ,包括 财务 清算 、 质 量 控 ”图 1-1 互联 网 大 数据 的 组 成 
制 等 , 却 是 基于 内 部 网 络 的 架构 。 因 此 ,从 IT 到 DT 的 演 
化 进程 来 看 ,互联 网 大 数据 既 包 括 了 各 种 Web 互联 网 应 用 中 不 断 累 积 而 产生 出 来 的 数据 ， 
也 包括 传统 业务 处 理 系统 产生 的 数据 ,如 图 1-1 所 示 。 具 体 而 言 ,互联 网 大 数据 源 于 以 下 
应 用 。 

(1) Web 应 用 : 基于 Web 服务 框架 的 各 种 应 用 ,如 微 博 、 网 络 论坛 . 电 商 系统 等 ,包括 
应 用 中 的 业务 数据 以 及 Web 服务 自身 所 保存 的 访问 日 志 。 

(2) 非 Web 的 互联 网 应 用 : 指 各 种 基于 客户 端的 互联 网 应 用 ,如 一 些 实时 访问 工具 、 邮 
件 系统 等 。 

(3) 基于 内 部 网 的 互联 网 应 用 延伸 : 许多 情况 下 ,互联 网 应 用 只 是 作为 一 种 用 户 交 互 
过 程 的 场所 ,而 交互 过 程 的 相关 数据 及 其 进一步 处 理 可 能 由 内 部 网 系统 进行 ,此 类 系统 的 相 
关 数 据 与 互联 网 应 用 也 较为 密切 ,应 视 为 互联 网 大 数据 的 一 部 分 。 

源 于 内 部 网 应 用 的 数据 大 都 是 基于 传统 关系 型 数据 库 , 其 处 理 分 析 技 术 相 对 比较 成 熟 ， 
因此 ,本 书 所 讲述 的 重点 是 源 于 互联 网 应 用 的 数据 ,以 Web 应 用 为 主 。 在 本 书后 面 的 叙述 
中 ,也 将 此 类 数据 简称 互联 网 大 数据 。 

对 于 一 般 意 义 上 的 大 数据 而 言 , 特 别 是 来 自 于 OLTP 的 大 数据 ,通常 认为 其 数据 特点 
具有 4V (Volume、Variety、Value、Velocity ) 或 7V (Volume、 Velocity、 Vast、 Variety、 
Veracity、Value、Visualize) 等 说 法 。 但 是 无 论 哪 种 说 法 ,一 般 都 把 数据 的 大 容量 、 数 据 蕴 含 
的 价值 数据 来 源 多 样 化 以 及 数据 处 理 的 快速 化 等 特点 作为 大 数据 的 基本 特征 。 因 此 ,对 于 
互联 网 大 数据 而 言 .除了 具备 这 些 基本 特征 外 ,还 有 一 些 源 于 Web 2. 0 环境 的 新 特点 ,具体 
如下。 

(1) 大 数据 类 型 更 加 丰富 。 由 于 互联 网 大 数据 更 多 的 是 与 用 户 行为 和 信息 内 容 相关 ， 
而 这 些 信息 自身 及 它们 所 演化 出 来 的 新 型 数据 类 型 都 具有 传统 OLTP 所 没有 的 特点 。 互 
联网 大 数据 的 数据 类 型 除了 传统 的 基本 数据 类 型 以 外 .还 有 文本 型 . 音 视频 ,用 户 标签 .地 理 
位 置信 息 、 社 交 连 接 数 据 等 。 这 些 数据 广泛 存在 于 各 类 互联 网 应 用 ,如 新 闻 网 站 上 的 新 闻 ， 
网 络 论坛 中 的 帖子 ,基于 位 置 服务 系统 (LBS) 中 的 经 纬度 信息 ,以 及 微 博 中 用 户 关注 所 形成 
的 连接 数据 。 这 种 数据 虽然 本 质 上 属于 字符 串 , 整 型 等 基本 数据 类 型 ,但 是 它们 经 过 重新 整 
合 已 经 形成 了 具有 一 定语 义 的 数据 单元 ,是 互联 网 大 数据 的 基本 组 成 部 分 。 
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(2) 数据 的 规范 化 程度 比 OLTP 中 的 数据 要 弱 。 由 于 互联 网 数据 的 动态 性 、 交 互 性 都 
比较 强 , 在 信息 传播 作用 下 ,用 户 生 成 的 信息 通常 也 有 很 大 的 相似 性 。 此 外 ,用 户 生成 的 信 
息 是 可 以 由 用 户 控 制 的 ,也 就 是 用 户 可 以 在 此 后 进行 修改 、 删 除 。 因 此 ,在 采集 互联 网 大 数 
据 时 ,就 可 能 会 出 现 不 同时 间 点 所 看 到 的 用 户 数据 并 不 相同 , 即 所谓 的 不 一 致 性 。 此 外 , 互 
联网 应 用 中 对 数据 的 校 验 并 不 是 很 严格 ,甚至 可 能 是 用 户 自 定义 的 ,这 种 数据 规范 化 方式 与 
OLTP 预先 定义 的 模式 也 完全 不 同 。 典 型 的 是 微 博 中 的 用 户 标签 ,每 个 人 可 以 根据 自己 的 
偏好 设 定 自 己 的 标签 ,两 个 不 同 的 标签 ,可 能 具有 相同 的 含义 ,而 相同 的 标签 ,可 能 对 不 同 用 
户 来 说 有 不 同 的 含义 。 

(3) 数据 的 流动 性 更 大 。 在 OLTP 中 ,数据 产生 的 速度 取决 于 业务 组 织 和 规模 ,除了 银 
行 , 电 信 等 大 型 的 联机 系统 外 ,OLTP 数据 流动 性 一 般 并 不 高 ,数据 生成 速度 也 很 有 限 。 但 
是 在 互联 网 环境 下 , 越 来 越 多 的 应 用 由 于 面 对 整个 互联 网 用 户 群 体 , 而 使 得 数据 产生 数据 
流动 性 大 大 增强 ,如 微 博 .LBS 服务 系统 等 ,这 种 流动 性 主要 体现 在 信息 传播 .数据 在 不 同 
节点 之 间 的 快速 传递 。 这 种 特点 ,也 就 决定 了 大 数据 分 析 技术 要 具备 对 数据 流 的 高 速 处 理 
能 力 ,挖掘 算法 要 能 够 支持 对 数据 流 的 分 析 , 技术 平台 要 具备 充足 的 并 行 处 理 能 力 。 

(4) 数据 的 开放 性 更 好 。 前 面 提 到 OLTP 具有 很 强 的 封闭 性 ,而 对 于 互联 网 大 数据 而 
言 ,由 于 互联 网 应 用 架构 本 身 具有 自由 、 共 享 、 去 中 心 化 等 特点 ,也 就 使 得 各 种 互联 网 应 用 中 
的 数据 在 较 大 的 范围 内 是 公开 的 ,可 以 自由 获取 。 而 且 由 于 互联 网 应 用 的 开放 性 特点 ,对 于 
用 户 的 身份 审查 并 非 太 严格 ,用 户 之 间 进 行 数据 共享 和 自由 分 享 也 就 变 得 更 加 容易 。 

(5) 数据 的 来 源 更 加 丰富 。 随 着 智能 终端 的 快速 普及 ,通信 网 络 的 更 新 换代 加 快 ` 智 能 
技术 和 交互 手段 越 来 越 丰富 ,互联 网 应 用 程序 形式 将 变 得 丰富 多 彩 , 也 将 产生 与 以 往 不 同 的 
数据 形式 。 例 如 虚拟 现实 (VR) 技 术 的 应 用 就 可 能 直接 将 人 的 真实 表情 数据 ,生理 数据 记录 
下 来 。 此 外 , 云 计算 、 物 联网 技术 的 出 现 带 来 了 新 的 服务 模式 ,它们 与 互联 网 的 结合 也 将 极 
大 地 扩大 互联 网 大 数据 来 源 。 多 种 不 同 来 源 的 数据 以 互联 网 为 中 心 进行 融合 , 正 符 合 了 大 
数据 的 基本 特征 ,因此 ,可 以 在 这 个 基础 上 做 更 有 效 的 分 析 和 挖掘。 

(6) 互联 网 大 数据 的 价值 体现 形式 更 加 多 样 化 。 随 着 互联 网 思维 在 各 个 行业 得 到 运 
用 ,互联 网 大 数据 与 每 个 行业 领域 都 存在 结合 点 ,因此 大 数据 的 价值 体现 也 就 不 会 仅 局 限于 
互联 网 应 用 自身 。 如 互联 网 与 出 租车 的 结合 ,基于 互联 网 大 数据 的 车 流 的 预测 .路径 规划 更 
具有 全 局 性 ,甚至 互联 网 大 数据 与 科学 研究 结合 在 一 起 也 形成 了 目前 颇具 特色 的 研究 范式 。 
在 以 社会 调查 为 主要 基础 的 社会 科学 领域 ,逐渐 过 渡 到 以 互联 网 为 背景 来 构建 自己 的 数据 
源 。 例 如 很 多 的 研究 以 微 博 、Twitter 中 的 用 户 行为 数据 为 基础 ,开展 一 些 心理 ,情感 方面 
的 研究 ,也 凸显 了 互联 网 大 数据 价值 的 多 样 化 。 

根据 上 述 互联 网 大 数据 特征 的 分 析 , 可 以 得 知 ,从 IT 到 DT 时 代 的 转变 ,互联 网 在 这 其 
中 起 到 了 很 大 的 促进 作用 ,而 大 数据 技术 和 思维 方式 反 过 来 将 推动 互联 网 应 用 的 演进 ,从 而 
改造 传统 行业 ,产生 更 高 的 价值 。 


1.3 互联 网 大 数据 处 理 的 相关 技术 


“大 数据 ?这 个 词汇 几乎 成 为 当今 最 热门 的 词汇 ,也 不 难看 出 ,大 数据 这 个 词汇 经 过 近 几 
年 来 的 发 展 ,已 经 成 为 新 的 概念 。 大 数据 的 相关 人 员 可 以 从 不 同 的 视角 来 看 待 这 种 概念 ,而 
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获得 自身 的 需求 和 满足 ,这 也 是 导致 大 数据 成 为 流行 词汇 的 原因 之 一 。 归 纳 起 来 ,可 以 从 以 
下 视角 来 理解 大 数据 的 概念 。 

(1) 技术 视角 ,大 数据 最 基本 的 属性 是 其 技术 特性 。 涵 盖 了 大 数据 采集 挖掘、 分 析 发 
布 共享 及 支撑 平台 建设 等 多 个 相关 过 程 中 的 技术 问题 。 

(2) 商业 视角 ,大 数据 之 所 以 能 引起 资本 市 场 的 关注 ,在 于 其 弹 新 的 商业 模式 , 即 所 谓 
大 数据 营销 。 通 过 对 大 数据 的 分 析 挖 掘 ,并 将 挖掘 结果 与 具体 领域 进行 关联 分 析 和 预测 ,从 
而 进行 商业 价值 发 现 , 为 构建 新 的 商业 模式 提供 可 靠 的 数据 基础 。 

(3) 思维 视角 ,大 数据 在 发 展 过 程 中 逐步 形成 了 大 数据 思维 体系 ,用 数据 说 话 、 数 据 区 
含 价 值 .关注 相 关 性 、 全 样本 原理 数据 预测 等 都 是 这 个 体系 的 重要 组 成 部 分 ,它们 为 人 们 解 
决 实际 问题 提供 了 方法 论 上 的 指导 。 这 种 具有 普 适 性 的 思维 视角 对 于 推动 大 数据 概念 的 大 
众 化 起 到 了 直接 作用 。 

(4) 学 科 视角 ,大 数据 科学 是 一 门 交叉 学 科 , 涉 及 信息 科学 .社会 科学 .系统 科学 .心理 
学 经济 学 等 诸多 领域 ,需要 由 各 个 学 科 进 行 深度 协作 才能 获得 好 的 大 数据 应 用 效果 ,因此 
它 得 到 各 个 学 科 的 关注 也 是 理所当然 的 。 

下 面 主要 从 大 数据 的 技术 视角 进行 叙述 ,包括 大 数据 的 技术 体系 构成 ,以 及 该 体系 下 的 
主要 技术 问题 ,如 数据 采集 、 提 取 、 结 构 化 处 理 , 语 义 技术 、 模 型 与 算法 、 隐 私 保护 与 大 数据 平 
台 技 术 。 


1.3.1 技术 体系 构成 


互联 网 大 数据 处 理 技术 主要 用 于 对 互联 网 大 数据 进行 采集 、 分 析 和 挖掘 等 ,其 具体 技术 
体系 构成 如 图 1-2 所 示 。 从 总 体 上 看 ,互联 网 大 数据 技术 体系 可 以 分 成 4 个 层次 , 即 数据 获 
取 层 ,大 数据 计算 与 存储 层 ,数据 挖掘 模型 与 算法 层 及 应 用 领域 技术 层 。 

这 4 个 层次 的 技术 构成 及 其 功能 简要 介绍 如 下 。 

(1) 数据 获取 层 。 对 于 互联 网 大 数据 而 言 ,数据 的 获取 主要 有 3 种 方法 , 即 网 络 疏 虫 、 
网 络 探 针 及 ETL(Extract-Transform-Load) 工 具 的 方法 。 

网 络 爬 虫 通过 模拟 人 的 点 击 行为 获取 Web 页 面 内 容 , 这 种 方法 需要 服务 器 付出 一 定 的 
计算 能 力 , 特 别 是 对 于 动态 页 面 ,需要 更 多 的 CPU 执行 和 磁盘 操作 。 因 此 ,如 果 与 网 站 服 
务 商 之 间 能 达成 数据 协议 ,就 可 以 直接 通过 ETL 从 网 站 的 数据 库 系统 中 获得 数据 ,而 不 需 
要 经 过 Web 服务 器 框架 。 当 然 ,互联 网 上 的 数据 类 型 很 多 ,并 不 是 所 有 的 数据 都 可 以 通过 
模拟 点 击 页 面 的 方式 得 到 ,特别 是 一 些 基 于 客户 端 访问 方式 的 数据 ,通过 网 络 探 针 在 网 络 数 
据 流 的 层面 上 进行 数据 还 原 和 获取 是 必要 的 。 

当然 ,在 数据 获取 层 .不 仅 是 为 了 获得 页 面 数据 ,而 且 要 在 页 面 文件 的 基础 上 ,从 页 面 中 
提取 具体 领域 所 关注 的 数据 ,如 从 新 闻 页 面 上 获得 新 闻 的 标题 .时 间 、 正 文 等 。 为 了 实现 这 
个 需求 ,分 析 页 面 结构 和 具体 信息 的 标签 含义 是 这 个 层次 的 一 个 基本 任务 ,也 就 是 图 中 所 提 
的 数据 格式 识别 处 理 问 题 。 

通常 在 互联 网 大 数据 的 具体 应 用 领域 .除了 来 自 互 联网 的 大 数据 外 ,还 需要 该 领域 的 一 
些 数 据 , 这 些 数 据 通 常 以 关系 型 数据 存在 。 例 如 ,对 于 电 商 应 用 . 电 商 的 销售 记录 、 进 销 存 数 
据 则 不 会 公开 于 互联 网 ,就 需要 通过 ETL 的 方式 将 这 些 数 据 转 入 到 大 数据 平台 中 。 当 然 
ETL 得 到 的 数据 也 需要 进行 格式 转换 、 完 整 性 检查 等 方面 的 操作 。 
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图 1-2 互联 网 大 数据 处 理 的 技术 体系 


(2) 大 数据 计算 与 存储 层 。 从 图 1-2 可 以 看 出 ,这 个 层次 上 的 功能 组 件 最 为 丰富 ,实现 
存储 和 计算 两 个 功能 。 这 里 的 计算 和 "数据 挖掘 模型 与 算法 "中 的 计算 并 非 相 同 的 含义 。 这 
个 层次 上 的 计算 是 指 面向 大 数据 分 析 的 一 些 底层 算法 ,典型 的 包括 排序 .搜索 .查找 .最 短路 
径 、 矩 阵 运算 等 。 这 些 算法 与 具体 应 用 无 关 , 它 们 为 上 层 的 数据 挖掘 提供 基本 的 函数 调用 ， 
算法 性 能 的 重要 性 不 言 而 喻 。 

在 大 数据 环境 下 ,为 了 提升 算法 性 能 ,这 些 底层 算法 的 实现 就 需要 充分 利用 计算 平台 的 
分 布 式 、 并 行 、 集 群 能 力 。MapReduce 就 是 这 样 一 种 实现 任务 分 解 、 分 布 及 结果 归 约 的 编程 
模型 。 但 是 MapReduce 基于 磁盘 进行 计算 结果 的 共享 ,在 IO 等 性 能 方面 存在 问题 ,因此 
其 他 的 计算 模型 如 Spark 就 应 运 而 生 。 不 管 是 哪 种 实现 ,最 终 的 目的 都 是 为 了 提供 API 供 
上 层 开 发 人 员 调 用 ,因此 ,为 了 便于 开发 设计 ,在 该 层次 上 ,同时 有 一 些 类 似 Hive、 
SparkSQL 的 组 件 提供 了 比较 接近 流行 语言 的 编程 模式 。 

从 数据 类 型 的 角度 看 ,互联 网 大 数据 中 ,结构 化 和 非 结构 化 数据 同时 并 存 , 在 存储 层 就 
配置 了 关系 型 数据 库 及 HBase 之 类 的 NoSQL ,而 后 者 建立 在 一 种 新 的 文件 系统 HDFS 之 
上 ,这 样 便于 进行 数据 的 分 布 .从 而 与 计算 平台 的 需求 结合 起 来 。 

从 大 数据 产生 模式 看 .数据 可 能 是 批量 进入 平台 ,也 可 能 是 时 时 刻 刻 都 在 生成 的 、 以 一 
种 不 间断 的 方式 流入 平台 。 对 于 前 者 而 言 .典型 的 就 是 一 类 类 似 新 闻 报 道 的 文本 ,它们 的 出 
现 有 较 大 的 时 间 间 隔 。 而 后 者 典型 的 就 是 微 博 上 的 博文 、 转 发 等 ,由 于 用 户 数量 巨大 ,这 种 
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数据 产生 速度 非常 快 。 针 对 这 两 种 类 型 的 数据 产生 模式 ,在 大 数据 计算 与 存储 层 就 分 别提 
供 了 批量 处 理 和 流 式 处 理 两 种 计算 平台 。 如 图 中 以 Hive、Pig 为 代表 的 就 实现 批量 处 理 , 而 
以 Storm 为 代表 的 则 实现 了 流 式 处 理 。Spark 则 同时 提供 对 这 两 种 处 理 模式 的 支持 。 

(3) 数据 挖掘 模型 与 算法 层 。 这 个 层次 对 采集 的 数据 进行 处 理 , 根 据 具体 应 用 需求 , 运 
用 大 数据 分 析 算 法 进行 数据 分 析 , 建 立 相关 模型 。 然 后 可 以 利用 这 些 模 型 进行 在 线 数据 流 
分 析 , 或 批量 数据 分 析 。 由 于 所 处 理 的 互联 网 大 数据 类 型 繁多 ,因此 需要 有 相应 的 处 理 算 
法 。 如 对 于 文本 数据 而 言 , 文 本 表示 、 文 本 中 的 对 象 属性 识别 .数据 语义 等 都 是 必要 的 基础 。 
对 于 连接 型 数据 ,图 算法 就 是 必需 的 。 除 了 这 些 对 采集 数据 进行 处 理 的 算法 外 ,更 重要 的 是 
各 种 大 数据 分 析 挖掘 算法 。 主 要 包括 数据 聚 类 、 分 类 、 相 关 性 计算 .回归 、 预 测 等 。 这 些 算法 
的 输出 结果 将 直接 为 领域 提供 具体 的 分 析 结 果 ,是 大 数据 分 析 的 真正 产 出 。 

在 这 个 层次 中 ,隐私 保护 技术 是 一 种 比较 特殊 的 技术 手段 ,主要 用 于 对 大 数据 中 涉及 个 
人 和 单位 的 敏感 信息 进行 脱 敏 。 隐 私 保护 的 研究 中 ,也 提出 了 很 多 种 模型 和 算法 。 

这 个 层次 的 功能 在 不 少 的 开源 系统 中 也 都 有 实现 ,当然 除了 实现 功能 外 ,这 些 开 源 系统 
本 身 要 能 与 大 数据 计算 层 上 的 分 布 式 集群 架构 紧密 结合 起 来 ,才能 做 到 真正 的 大 数据 分 析 
处 理 。 一 些 典型 的 开源 系统 .如 运行 于 Hadoop 上 的 Mahout、Weka、Oryx 及 运行 于 Spark 
上 的 MLlib 等 ,都 对 大 数据 分 析 提 供 了 支撑 。 

(4) 应 用 领域 技术 层 。 在 这 个 层次 主要 涉及 与 具体 应 用 领域 有 关 的 技术 。 这 些 技术 通 
常 与 用 户 UI 系统 管理 ,输出 有 关 。 大 数据 可 视 化 ,以 及 对 其 他 3 个 层次 上 的 关键 参数 配置 
调整 等 技术 都 是 该 层次 的 主要 部 分 。 特 别 是 对 于 数据 挖掘 模型 的 选择 比较 问题 。 大 家 知 
道 ,在 数据 挖掘 中 ,所 选用 的 模型 并 不 是 在 每 种 情况 下 都 是 最 优 的 ,这 就 需要 进行 及 时 的 调 
整 。 例 如 在 分 类 中 ,针对 某 个 时 间 段 分 类 效果 最 好 的 分 类 器 ,在 其 他 时 间 有 段 未 必 仍然 合适 ， 
因为 可 能 是 领域 行为 特征 发 生 了 变化 。 

除了 上 述 领域 技术 外 ,大 数据 应 用 成 功 的 一 个 驱动 力 是 数据 共享 。 当 前 政府 管理 机 构 
都 鼓励 数据 拥有 者 把 数据 共享 出 来 ,但 是 这 并 不 是 一 件 简单 的 事情 。 数 据 发 布 技术 需要 在 
领域 范围 内 决定 哪些 数据 是 敏感 的 .哪些 数据 是 不 敏感 的 。 从 而 与 模型 算法 层次 中 的 隐私 
保护 技术 结合 起 来 。 

介绍 完 互 联网 大 数据 处 理 的 技术 体系 ,可 以 发 现 该 技术 体系 与 一 般 意 义 上 的 大 数据 技 
术 体 系 的 差别 并 不 大 ,但 是 这 仅 是 从 层次 结构 上 看 。 在 具体 的 技术 上 还 是 有 较 大 差别 ,主要 
体现 在 以 下 几 方 面 。 

(1) 数据 获取 层 : 这 里 所 面 对 的 更 主要 的 是 互联 网 上 各 种 类 型 数据 ,它们 与 OLTP 数 
据 的 区 别 已 经 在 前 面 叙 述 了 。 

(2) 大 数据 计算 与 存储 层 : 由 于 互联 网 大 数据 涉及 的 数据 类 型 更 丰富 ,如 表现 人 际 连 
接 的 数据 ,地 理 位 置 数据 ,个 人 标签 数据 ,文本 数据 等 ,对 这 些 数 据 的 计算 处 理 和 存储 与 普通 
的 关系 型 数据 有 较 大 差异 。 

(3) 数据 挖掘 模型 与 算法 层 : 由 于 数据 类 型 .数据 源 更 加 丰富 ,也 对 数据 挖掘 提出 了 更 
多 的 需求 ,从 而 体现 出 与 普通 大 数据 技术 体系 不 同 的 特点 。 


1.3.2 相关 技术 研究 
与 互联 网 大 数据 处 理 相关 的 技术 主要 包括 大 数据 采集 提取、 结构 化 处 理 . 大 数据 语义 
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技术 、 大 数据 分 析 的 模型 与 算法 、 隐 私 保护 和 大 数据 技术 平台 。 本 节 对 这 些 技术 的 研究 现状 
进行 简单 介绍 。 

1. 互联 网 大 数据 采集 

根据 互联 网 大 数据 来 源 的 不 同 , 相 应 的 采集 手段 包含 ETL、 网 络 爬 贝 和 网 络 探 针 方式 。 
本 书 主要 介绍 网 络 怜 虫 的 方式 。 通 过 网 络 爬 虫 的 方式 可 以 获取 公开 Web 页 面 上 的 数据 。 
爬虫 需要 解决 的 关键 技术 有 以 下 几 点 。 

(1) 提升 怜 虫 采集 的 并 行 度 。 爬 虫 通 常 需要 面 对 一 定 范围 的 大 量 页 面 ,并 在 尽 可 能 短 
的 时 间 内 获取 这 些 页 面 。 现 有 方法 大 都 依赖 于 分 布 式 、 多 线程 技术 ,典型 的 有 : 采用 
Hadoop 架构 或 自行 设计 的 分 布 式 架构 ,将 任务 分 配 至 不 同 的 节点 ,但 是 如 何 高 效 地 管理 中 
心 主机 是 个 难题 。 

(2) 爬虫 的 可 靠 性 、 容 错 性 。 由 于 不 同 网 站 所 处 的 状态 不 同 , 当 疏 虫 连接 网 站 及 在 页 面 
获取 过 程 中 可 能 出 现 各 种 错误 问题 ,如 服务 器 不 可 用 、 执 行 时 间 过 长 等 。 为 了 提升 怜 虫 的 容 
错 性 , 现 有 方法 普遍 采用 超时 技术 ,针对 网 站 可 能 的 各 种 响应 信息 制定 预案 ,但 是 如 果 没 有 
处 理 好 ,就 可 能 导致 付 虫 执行 产生 超时 ,严重 影响 怜 虫 性 能 。 

(3) 突破 疏 虫 封锁 。 网 站 对 疏 虫 的 检测 和 限制 ,需要 采用 一 定 技术 手段 来 解决 。 目 
前 主要 采用 的 技术 有 多 代理 服务 器 之 间 切 换 、 填 充 客户 端 参数 等 。 但 服务 器 端 仍 会 发 展 
出 新 的 技术 来 检测 和 限制 怜 虫 ' 因 此 通过 技术 手段 在 保证 信息 获取 能 力 的 前 提 下 ,让 疏 
虫 的 行为 不 对 网 站 造成 太 大 的 影响 ,在 网 站 和 疏 虫 之 间 找 到 利益 平衡 点 才 是 解决 这 个 问 
题 的 根本 。 

2. 互联 网 大 数据 提取 

对 于 互联 网 大 数据 提取 技术 而 言 , 面 对 各 种 样式 的 Web 页 面 和 非 Web 应 用 ,从 中 提取 
数据 的 主要 技术 包括 以 下 几 点 。 

(1) 针对 各 种 不 同 页 面 .准确 地 寻找 页 面 中 的 正文 信息 。 目 前 技术 大 多 针对 特定 的 页 
面 ,事先 确定 正文 在 页 面 中 的 位 置 或 特征 ,再 结合 这 些 信息 进行 正文 的 搜索 。 这 种 方法 的 挑 
战 在 于 : 即使 是 同一 个 网 站 的 页 面 , 页面 布 局 也 会 发 生变 化 ,技术 上 的 自 适应 就 变 得 很 
重要 。 

(2) 页 面 类 型 的 识别 。 由 于 不 同类 型 页 面 中 的 数据 组 织 形式 差别 很 大 ,如 论坛 型 页 面 、 
新 闻 型 页 面 、 评 论 型 页 面 等 .也 使 得 要 提取 的 数据 位 置 具有 不 同 的 特征 。 页 面 类 型 的 自动 识 
别 技术 对 于 解决 这 个 问题 是 非常 重要 的 。 

(3) 网 络 探 针 方式 获得 的 原始 数据 实际 上 是 网 络 上 传输 的 字 节 码 , 所 有 进出 某 个 网 络 
节点 的 数据 都 混杂 在 一 起 ,由 于 流量 数据 巨大 、 数 据 加 密 及 未 知 协议 等 原因 ,使 得 数据 的 还 
原 和 内 容 提 取 变 得 很 困难 。 

3. 大 数据 结构 化 处 理 

互联 网 大 数据 的 结构 化 处 理 是 指 在 分 析 挖掘 之 前 对 原始 数据 所 进行 的 处 理 。 具 体 的 结 
构 化 处 理 则 取决 于 数据 类 型 、 网 络 应 用 等 因素 。 

结构 化 处 理 的 必要 性 之 一 来 自 于 前 面 提 到 互联 网 大 数据 的 弱 规 范 特征 ,需要 对 数据 进 
行 缺失 值 填充 、 归 一 化 ,标准 化 等 处 理 。 例 如 , 某 些 网 络 论 坛 中 帖子 的 首发 日 期 并 非 都 是 按 
照 计算 机 中 标准 的 日 期 记录 方式 ,这 时 为 了 便于 后 续 运算 就 需要 对 它们 进行 格式 上 的 转换 。 
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此 外 ,对 于 互联 网 大 数据 ,由 于 信息 复制 成 本 低 ,相同 或 相似 信息 大 量 存在 ,进行 数据 去 重 通 
常 也 是 预 处 理 的 一 个 环节 。 

更 多 的 结构 化 处 理 是 发 生 在 文本 内 容 上 ,这 是 互联 网 上 类 型 最 多 的 数据 。 一 篇 新 闻 报 
道 的 文本 就 是 这 种 类 型 ,对 文本 进行 切 分 是 计算 机 理解 文本 内 容 的 第 一 个 步骤 。 切 分 的 目 
的 是 把 输入 的 句子 切 分 成 为 词汇 序列 。 而 由 于 语言 表达 的 灵活 性 ,会 出 现 类 似 于 “二 手机 
箱 ” 这 种 可 能 产生 多 种 不 同 切 分 结果 的 文本 ,因此 ,歧义 的 处 理 也 就 成 为 文本 结构 化 处 理 阶 
段 需要 解决 的 关键 技术 。 在 一 个 文本 中 ,除了 词汇 外 ,每 个 词汇 还 有 对 应 的 词性 。 词 性 识别 
是 预 处 理 中 的 一 个 主要 步骤 ,这 是 因为 词性 信息 在 上 层 的 挖掘 分 析 中 尤为 重要 ,如 名 词 比 介 
词 更 能 反映 一 篇 新 闻 报 道 的 内 容 。 

考虑 到 互联 网 大 数据 的 特点 ,许多 的 新 闻 不 断 地 在 网 络 空间 中 被 创造 出 来 ,而 且 新 闻 对 
于 计算 机 理解 内 容 含 义 起 着 重要 作用 ,因此 新 词 的 识别 判断 也 就 成 为 结构 化 处 理 中 一 个 必 
要 的 环节 。 

4. 大 数据 语义 技术 

对 于 大 数据 分 析 而 言 , 传 统 的 数据 挖掘 技术 ,如 分 类 、 聚 类 、 相 关 性 分 析 等 技术 都 比较 成 
熟 ,在 关系 型 数据 集 的 分 析 挖 掘 中 也 显示 了 很 好 的 可 行 性 。 而 针对 互联 网 大 数据 而 言 , 文 本 
类 型 的 数据 占 主要 部 分 ,词汇 是 文本 型 数据 最 基本 的 组 成 和 运算 单位 。 其 他 类 型 的 互联 网 
大 数据 ,如 视频 、 图 片 等 最 终 也 可 以 归结 为 词汇 的 运算 。 词 汇 之 间 的 关系 最 重要 的 就 是 它们 
的 语义 关系 ,大 数据 语义 技术 是 用 于 解决 此 类 语义 关系 的 技术 。 

首先 是 词汇 级 别 的 语义 技术 ,主要 包括 词汇 之 间 的 语义 关系 类 型 划分 ,这 种 类 型 包括 包 
含 关系 .修饰 关系 等 。 主 要 采用 基于 知识 库 资 源 的 计算 方法 ,具体 而 言 是 根据 两 个 词汇 在 知 
识 库 中 的 位 置 关 系 来 推断 。 当 前 , 随 着 深度 学 习 研 究 的 深入 ,可 以 从 大 量 的 文本 中 推理 出 词 
向 量 , 在 应 用 中 发 现 这 种 词 向 量具 有 一 定 的 语义 表达 能 力 , 因 此 也 成 为 大 数据 语义 分 析 的 重 
要 技术 之 一 。 

其 次 是 句子 级 别 的 语义 分 析 技术 ,有 些 做 法 是 将 其 中 的 关键 词 按照 一 定 方式 进行 组 织 ， 
从 而 转换 成 为 词汇 的 语义 分 析 。 另 一 类 做 法 则 是 引入 句法 分 析 技 术 , 对 词汇 在 句子 中 的 作 
用 进行 评价 。 

在 语义 技术 方面 ,还 有 一 类 技术 称 为 命名 实体 识别 ,是 对 词汇 的 属性 进行 进一步 分 析 ， 
包括 判断 词汇 是 否 为 人 名 地名、 机构 名 、 时 间 等 。 这 类 属性 显然 对 于 在 大 数据 中 分 析 与 关 
联 入 物 的 相关 信息 具有 很 大 的 作用 。 相 关 的 方法 主要 是 基于 规则 的 方法 .基于 机 器 学 习 等 
方法 

5. 大 数据 分 析 的 模型 与 算法 

模型 与 算法 是 大 数据 分 析 技术 的 核心 之 一 ,涉及 的 模型 主要 有 向 量 空间 模型 .概率 模型 
等 ,这 些 模 型 作为 数据 分 析 中 表示 样本 的 基本 模型 ,不 但 在 关系 型 数据 而 且 在 非 关 系 型 数据 
中 都 是 经 典 的 方法 。 针 对 互联 网 大 数据 的 特点 ,数据 量 大 .类 型 多 ,导致 模型 的 特征 空间 膨 
胀 得 很 大 ,由 此 带 来 了 特征 属性 值 的 稀 玻 性 、 特 征 之 间 的 耦合 性 等 问题 ,而 这 些 问题 都 需要 
在 模型 训练 过 程 中 解决 。 

分 析 算 法 则 包含 分 类 算法 、 聚 类 算法 、 相 关 性 计算 、 预 测算 法 等 ,每 种 算法 中 都 有 一 些 经 
典 的 方法 。 对 于 分 类 算法 而 言 .朴素 贝 叶 斯 (Naive Bayes)、 最 近邻 居 (KNN) 支持 向 量 机 
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(SVMD) ,决策 树 (Decision Tree) 等 都 是 一 些 经 典 方法 。 而 K-means、DBSCAN 层次 聚 类 则 
是 聚 类 算法 中 的 经 典 方法 ,这 些 算 法 是 基于 基本 模型 上 的 一 种 运算 。 针 对 大 数据 的 分 析 , 遇 
到 的 主要 问题 就 是 数据 量 巨大 . 比 传统 环境 下 所 遇 到 的 数据 量 要 大 得 多 ,因此 ,就 需要 这 些 
经 典 算法 在 设计 和 实现 时 要 充分 考虑 对 巨 量 数据 运算 的 支持 ,分 布 式 ,集群 计算 环境 下 的 分 
析 算 法 实现 则 是 解决 问题 的 重点 。 

6. 隐私 保护 

在 大 数据 时 代 , 发 现 数据 价值 是 最 主要 的 目标 。 为 了 实现 这 个 目标 ,其 中 一 种 途径 就 是 
充分 利用 不 同 来 源 的 数据 ,通过 数据 共享 与 融合 来 实现 数据 利用 率 的 最 大 化 。 与 其 他 类 型 
的 大 数据 一 样 ,互联 网 大 数据 的 共享 也 存在 潜在 的 隐私 泄露 风险 。 一 个 典型 的 例子 是 ,在 使 
用 社交 软件 时 ,人 们 的 位 置信 息 很 容易 会 被 系统 记录 下 来 ,一 旦 这 种 数据 集 被 发 布 共 享 出 去 
的 时 候 , 其 他 人 包括 熟人 和 陌生 人 都 可 能 通过 分 析 一 定时 间 内 的 位 置 序列 来 推断 个 人 。 随 
着 互联 网 与 日 常生 活 的 关系 越 来 越 密 切 , 每 个 人 在 互联 网 上 保存 的 个 人 信息 和 行为 信息 越 
来 越 多 ,针对 互联 网 大 数据 的 隐私 保护 就 变 得 非常 必要 。 

隐私 可 以 分 为 静态 隐私 和 动态 隐私 两 大 类 。 前 者 是 人 的 一 些 基 本 属性 ,如 姓名 、 性 别 、 
身份 证 号 等 。 后 者 则 涉及 面 很 广 ,如 用 户 行为 ,用 户 兴 趣 等 。 在 互联 网 时 代 , 动 态 隐私 更 是 
每 个 人 所 应 当 关 注 的 。 

在 互联 网 环境 下 ,根据 用 户 隐 私 数据 的 生成 场景 ,除了 一 些 针对 关系 型 数据 的 隐私 保护 
外 ,还 有 以 下 若干 种 典型 的 非 关 系 型 数据 隐私 保护 需求 。 

(1) 位 置 隐私 保护 。 在 许多 互联 网 应 用 中 通过 记录 个 人 上 网 时 的 IP 地 址 、 使 用 移动 设 
备 时 的 经 纬度 坐标 信息 ,来 为 用 户 提供 个 性 化 服务 。 此 类 数据 反映 了 个 人 行为 轨迹 ,具有 一 
定 的 敏感 性 ,需要 受到 保护 。 

(2) 社交 网 络 隐私 保护 。 在 社交 网 络 应 用 中 ,每 个 人 的 朋友 关系 都 会 被 记录 下 来 。 当 
整个 社交 网 络 用 户 关系 都 可 获得 时 ,即使 某 个 人 没有 填写 自己 的 敏感 信息 ,但 是 还 有 可 能 利 
用 一 些 社交 网 络 的 基本 理论 ,如 六 度 联 系 、 三 度 影响 力 , 朋 友 相 似 性 等 ,通过 朋友 属性 来 推断 
某 个 人 的 敏感 信息 。 

(3) 评论 信息 隐私 保护 。 评 论 型 信息 主要 出 现在 网 络 论坛 、 微 博 、 博 客 及 电 商 商品 评 
论 页 面 中 。 用 户 在 发 表 评 论 时 .个 人 的 评论 时 间 、 表 达 方 式 、 情 感 因素 等 都 体现 在 所 写 的 
评论 信息 中 。 因 此 ,尽管 没有 实名 ,但 很 可 能 通过 熟人 攻击 的 方式 来 推断 个 人 的 敏感 
属性 。 

7. 大 数据 技术 平台 

由 于 数据 存储 量 大 、 需 要 密集 型 计算 与 分 析 等 原因 ,在 大 数据 分 析 应 用 中 就 需要 借助 于 
一 定 的 平台 ,以 简化 数据 管理 和 维护 工作 ,加快 数据 分 析 过 程 . 实 现 大 数据 挖掘 的 价值 。 目 
前 的 大 数据 平台 形式 各 样 .开源 的 大 数据 技术 平台 也 不 少 ,所 提供 的 功能 也 有 所 区 别 , 根 据 
平台 所 涵盖 的 技术 可 以 分 成 以 下 5 类 。 

(1) 存储 平台 。 在 大 数据 分 析 应 用 中 ,数据 格式 多 种 多 样 ,提供 大 数据 存储 的 平台 有 面 
向 结构 化 数据 、 非 结构 化 数据 存储 的 平台 。 结 构 化 数据 存储 平台 具有 和 较 长 的 发 展 历史 ， 
Oracle、SQLServer、MySQL 等 都 比较 早 地 提供 了 这 类 数据 存储 的 支持 。 非 结构 化 数据 存 
储 平台 根据 它 所 支持 的 数据 形式 又 可 以 分 为 键 值 存储 数据 库 、 文 档 数据 库 、 图 形 数 据 库 和 列 
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式 数据 库 。 键 值 数 据 库 常 用 的 有 Redis、Memcached、VoltDB、Riak; 文档 数据 库 有 
CouchBase、CouchDB、MongoDB; 图 形 数据 库 有 HypergraphDB、 InifiniteGraph、Neo4J、 
OrientDB 等 ; 列 式 数 据 有 HBase、Cassandra 等 。 

(2) 计算 平台 。 大 数据 的 计算 平台 根据 对 数据 的 处 理 模式 ,可 以 分 为 批量 式 计 算 平 台 
和 数据 流 式 计算 平台 。 前 者 对 收集 到 的 数据 进行 一 次 性 运算 ,对 成 批 数据 进行 处 理 。 后 者 
则 是 将 数据 看 成 是 一 个 动态 的 生成 源 , 数 据 不断 地 流入 到 计算 平台 中 ,从 而 需要 采用 与 批 处 
理 不 一 样 的 技术 。 前 者 典型 的 就 是 Hadoop 中 的 MapReduce, 后 者 则 是 Storm。 而 另 一 类 
则 同时 提供 了 批 处 理 和 流 式 处 理 的 环境 ,典型 的 就 是 Spark Core。 

(3) 分 析 挖掘 平台 。 分 析 挖 掘 技术 是 大 数据 处 理 的 核心 ,针对 不 同 的 分 析 挖 掘 任务 需 
要 采用 不 同 的 算法 和 模型 。 而 分 析 挖掘 平台 就 集成 了 这 些 算 法 和 模型 ,并 提供 给 用 户 一 个 
便于 操作 的 界面 或 调用 的 API。 这 类 平台 从 大 数据 存储 平台 中 获得 输入 数据 ,进行 一 些 必 
要 的 数据 处 理 , 如 特征 选择 特征 变换 ,分 类 、 聚 类 、 预 测 等 。 许 多 开源 系统 都 提供 对 分 析 挖 
掘 的 支持 ,如 Weka、Mahout、oryx 等 ,它们 并 不 一 定 都 要 依赖 于 计算 平台 。 

(4) 数据 可 视 化 技术 。 大 数据 由 于 其 维度 其 高 .数据 量 多 、 实 体 多 、 关 系 复杂 等 原因 ,在 
分 析 结 果 的 展示 上 存在 很 大 困难 ,但 是 对 于 终端 用 户 来 说 一 种 易于 理解 的 数据 展示 模式 ,并 
满足 用 户 的 交互 和 体验 ,这 是 非常 必要 的 。 大 数据 可 视 化 技术 就 是 用 于 解决 此 类 问题 ,目前 
有 针对 文本 数据 、 位 置 数 据 、 网 络 数据 等 类 型 大 数据 的 可 视 化 技术 和 系统 。 这 些 可 视 化 技术 
平台 同样 也 有 独立 系统 ,也 有 的 依赖 于 特定 的 计算 平台 。 

(5) 集成 平台 。 集 成 平台 集成 了 上 述 相 关 平 台 的 多 种 功能 ,一 方面 能 够 为 用 户 进行 大 
数据 分 析 和 应 用 提供 方便 ,在 一 个 集成 环境 中 即 可 完成 所 有 需要 的 步 又 。 另 一 方面 ,集成 平 
台中 通常 会 对 各 个 集成 部 件 进行 优化 配置 ,从 而 能 够 在 整体 上 提升 数据 处 理 的 性 能 。 

集成 平台 有 两 种 类 型 , 即 分 布 式 集群 环境 和 云 大 数据 环境 。 分 布 式 集群 环境 是 利用 一 
些 支持 分 布 式 集群 的 开源 系统 构建 运行 环境 .如 Hadoop、Spark 等 就 经 常 被 用 来 搭建 大 数 
据 集成 平台 ,将 数据 存储 、 分 析 计 算 挖掘、 输出 显示 及 开发 部 署 等 过 程 集成 在 一 起 。 基 于 云 
的 大 数据 环境 则 提供 了 一 种 扩展 性 更 好 的 计算 环境 , 它 得 益 于 云 环境 的 优势 ,在 云 上 部 署 大 
数据 分 析 应 用 具有 很 好 的 发 展 前 景 。 阿 里 云 大 数据 平台 (https://data. aliyun. com/) 就 是 
其 中 典型 的 代表 。 


1.4 互联 网 大 数据 技术 的 发 展 


当前 ,互联 网 技术 应 用 正 处 于 高 速 发 展 阶段 ,各 种 应 用 场景 反 过 来 对 大 数据 分 析 技 术 提 
出 了 更 高 更 多 的 需求 ,从 而 促进 了 互联 网 大 数据 分 析 技术 的 发 展 。 基 于 未 来 若干 年 的 技术 
和 应 用 发 展 趋势 ,对 互联 网 大 数据 分 析 技 术 的 发 展 做 如 下 判断 ,主要 体现 在 互联 网 大 数据 采 
集 、 计 算 、 分 析 模 型 .算法 、 技 术 平台 等 方面 。 

1. 互联 网 大 数据 采集 与 共享 的 新 型 途径 

由 于 互联 网 具有 开放 性 ,数据 几乎 是 暴露 的 ,数据 是 一 种 资产 的 观点 也 得 到 认可 ,因此 
这 两 者 之 间 的 矛盾 ,会 随 着 人 们 对 大 数据 认识 的 加 深 而 变 得 更 加 突出 。 这 种 矛盾 可 能 会 随 
着 相关 法 律 法 规 的 制定 而 促进 新 型 数据 共享 与 采集 途径 的 出 现 , 而 不 局 限于 当前 的 息 虫 、 探 
针 或 ETL 技术 。 
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2. 互联 网 大 数据 分 析 的 专业 化 


互联 网 应 用 的 进一步 发 展 .迫使 人 们 从 数据 中 去 寻找 价值 和 机 会 ,对 大 数据 分 析 和 应 用 
的 需求 越 来 越 多 。 易 用 、 可 用 的 专业 化 服务 可 以 使 得 用 户 将 精力 集中 于 大 数据 的 价值 分 析 
和 发 现 上 ,而 不 用 去 考虑 大 数据 技术 问题 ,因此 ,专业 化 的 大 数据 技术 平台 和 服务 将 成 为 互 
联网 应 用 的 一 种 主流 。 

3. 大 数据 语义 挖掘 能 力 的 极 大 提升 

今后 可 使 用 的 互联 网 大 数据 会 越 来 越 多 ,从 各 种 不 同类 型 .不同 来 源 和 应 用 中 的 数据 中 
去 发 现价 值 ,最 大 的 挑战 来 自 于 这 些 数据 的 异 构 性 。 内 容 的 多 义 、 同 义 、 歧 义 、 复 杂 模 式 等 问 
题 , 无 法 通过 现 有 数据 挖掘 方法 来 解决 。 深 度数 据 挖掘 ,特别 是 具有 语义 能 力 的 挖掘 方法 ， 
通过 数据 单元 的 语义 分 析 , 在 大 数据 集 内 外 进行 推理 计算 ,这 将 是 研究 的 核心 。 

4。 新 型 的 大 数据 分 析 算 法 与 模型 

当前 ,用 于 大 数据 分 析 的 模型 和 算法 是 早期 针对 数据 仓库 应 用 发 展 来 的 , 较 少 考虑 到 互 
联网 应 用 的 特点 。 另 一 方面 ,互联 网 应 用 的 进一步 发 展 , 物 联网 .车 联网 等 与 互联 网 深度 融 
合 ,也 将 产生 更 多 新 型 数据 ,对 它们 的 语义 分 析 和 处 理 , 也 将 促进 新 型 的 分 析 算 法 和 模型 的 
产生 。 


1.5 本 书 内 容 安排 


本 书 共 分 9 章 ,涵盖 互联 网 大 数据 生命 周期 的 主要 阶段 ,各 章 的 内 容 安排 如 下 。 

第 1 章 对 互联 网 大 数据 的 基本 特征 、 应 用 发 展 、 技 术 体 系 和 技术 组 成 进行 概述 。 

第 2 章 对 Web 页 面 数 据 获取 方法 进行 介绍 ,包括 传统 息 虫 主题 候 虫 .DeepWeb 数据 
以 及 反 息 虫 、 反 反 仆 虫 技 术 等 。 

第 3 章 针 对 Web 页 面 信息 介绍 互联 网 大 数据 的 提取 技术 方法 ,包括 基本 的 页 面 提取 、 
基于 统计 的 提取 方法 等 。 

第 4 章 针 对 文本 这 种 互联 网 上 最 流行 的 数据 形式 ,介绍 其 结构 化 处 理 技术 ,包括 词汇 切 
分 ,词性 识别 .新 词 识别 及 一 些 开源 工具 等 。 

第 5 章 从 词汇 .句子 级 别 进行 大 数据 语义 分 析 技 术 的 介绍 ,还 介绍 命名 实体 的 识别 
技术 。 

第 6 章 对 大 数据 分 析 的 模型 与 算法 及 相关 技术 进行 介绍 ,包括 特征 选择 、 特 征 提取 、 文 
本 的 表示 模型 及 分 类 、 聚 类 .回归 等 大 数据 基本 算法 ,以 及 大 数据 分 析 算 法 的 并 行 化 处 理 
方法 。 

第 7 章 介绍 大 数据 中 的 隐私 保护 ,包括 隐私 保护 的 若干 基本 模型 和 算法 ,并 针对 互联 网 
上 广泛 存在 的 位 置 型 .社交 型 数据 的 隐私 保护 方法 进行 讲解 。 

第 8 章 介 绍 大 数据 技术 平台 ,包括 存储 平台 .Hadoop Spark 计算 平台 .可视化 工具 及 
阿里 云 大 数据 平台 。 

第 9 章 描述 一 个 基于 阿里 云 大 数据 技术 平台 的 个 性 化 新 闻 推 荐 系统 的 分 析 设计 ,将 本 
书 所 涉及 的 若干 关键 技术 在 一 个 系统 和 集成 平台 上 进行 实现 。 
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. 谈 谈 互联 网 大 数据 出 现 的 必然 性 。 

. 互联 网 大 数据 有 哪些 典型 的 特点 ? 

什么 是 互联 网 大 数据 ? 

互联 网 大 数据 处 理 技术 包含 哪些 ? 

. 举 一 个 具体 应 用 场景 , 谈 谈 你 对 图 1-2 所 示 的 互联 网 大 数据 处 理 技术 体系 的 理解 。 








an oo 


互联 网 大 数据 的 获取 








二 第 2 章 
\ Web 页 面 数据 获取 





本 章 描述 互联 网 上 各 种 典型 应 用 中 的 页 面 获取 方法 ,这 些 页 面 类 型 包括 静态 页 面 .动态 
页 面 , 并 着 重 对 主题 怜 虫 进行 了 讲解 。 除 了 基于 页 面 之 间 超 链接 的 数据 获取 方法 以 外 ,本 章 
还 介绍 基于 API 函数 调用 的 微 博 数据 获取 方法 。 由 于 爬虫 技术 的 广泛 应 用 ,引起 了 服务 器 
端的 关注 ,出 现 了 一 些 反 候 虫 技术 ,因此 ,本 章 对 反 息 虫 技术 和 反 反 息 虫 技术 进行 了 阐述 。 


2.1 网 络 仆 虫 技术 概述 


关于 什么 是 网 络 息 虫 .目前 并 没有 统一 和 确切 的 定义 。 网 络 候 虫 是 一 种 计算 机 自动 程 
序 , 它 能 够 自动 建立 到 Web 服务 器 的 网 络 连接 ,访问 服务 器 上 的 某 个 页 面 或 网 络 资源 ,获得 
其 内 容 , 并 按照 页 面 上 的 超 链 接 进行 更 多 页 面 的 获取 。Web 页 面 链接 指向 的 图 片 、 各 种 类 
型 的 文档 都 是 候 虫 可 以 获取 的 网 络 资源 。 除 了 获取 页 面 内 容 外 ,通常 网 络 息 虫 还 需要 提取 
页 面 中 的 超 链 接 , 再 对 这 些 超 链接 进行 内 容 获 取 , 由 此 不 断 地 沿 着 页 面 链接 展开 出 去 。 由 于 
怜 虫 程序 的 这 种 执行 过 程 就 像 是 蜘蛛 在 蜘蛛 网 中 沿 着 路 线 爬 行 ,网 络 中 的 每 个 节点 就 相当 
于 一 个 页 面 ,因此 网 络 息 虫 还 有 一 个 很 形象 的 名 称 , 即 网 络 蜂 蛛 (Web Spider)。 当 然 , 也 可 
以 在 网 络 怜 虫 程序 中 执行 Web 页 面 的 分 析 、 正 文 识别 和 提取 等 动作 ,根据 具体 的 应 用 场合 
设计 ,没有 固定 的 设计 模式 。 

网 络 息 虫 技术 最 先是 在 搜索 引擎 系统 中 得 到 应 用 ,特别 是 涉及 从 互联 网 上 进行 大 量 页 
面 的 自动 采集 时 ,基本 上 都 离 不 开 疏 虫 技术 。 以 下 列举 一 些 典型 的 网 络 怜 虫 应 用 场景 , 除 此 
以 外 ,和 疏 虫 技术 还 可 以 在 很 多 场合 下 使 用 。 

1. 互联 网 搜索 引擎 

疏 虫 技术 是 互联 网 搜索 引擎 系统 的 关键 技术 。 不 管 是 通用 的 搜索 引擎 ,还 是 垂直 搜索 
引擎 系统 ,其 庞大 的 数据 都 是 源 自 互联 网 上 各 种 应 用 中 的 数据 ,通过 疏 虫 技术 ,可 以 对 互联 
网 上 的 页 面 信息 进行 及 时 全 面 的 采集 ,从 而 可 以 使 得 搜索 引擎 系统 能 够 保持 最 新 数据 ,更 好 
地 为 用 户 提供 查询 服务 。 

2. 互联 网 熏 情 监测 

互联 网 与 情 监测 是 当前 的 应 用 热点 ,通过 采集 互联 网 上 一 些 特定 网 站 中 的 页 面 ,进行 信 
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息 提取 、 人 敏感 词 过 滤 .智能 聚 类 分 类 主题 检测 .主题 聚焦 统计 分 析 等 处 理 之 后 ,给 出 与 情态 
势 研 判 的 一 些 分 析 报 告 。 当 前 典型 的 互联 网 与 情 监控 系统 所 能 达到 的 监测 效果 都 取决 于 其 
互联 网 信息 的 获取 能 力 ,包括 监控 系统 在 Web 页 面 获取 时 的 并 发 能 力 、 对 静态 和 动态 等 不 
同类 型 页 面 的 获取 能 力 、 对 实时 页 面 数据 的 获取 能 力 等 。 

3. 社交 媒体 评论 信息 监测 

随 着 社交 媒体 在 互联 网 上 的 广泛 应 用 ,出 现 了 大 量 评论 型 页 面 ,对 这 些 Web 页 面 进行 
及 时 完整 的 采集 ,能 够 获取 到 大 量 的 用 户 偏好 、 用 户 行为 信息 ,这 是 个 性 化 推荐 、 用 户 行为 研 
究 和 应 用 的 关键 基础 。 例 如 ,目前 对 各 种 电子 商务 网 站 产品 购买 评论 的 自动 采集 、 校 园 BBS 
页 面 采集 等 都 属于 这 种 类 型 。 

4. 应 用 安全 监测 

应 用 层 安 全 是 网 络 信 息 安全 的 重要 问题 之 一 ,这 类 安全 与 具体 应 用 有 密切 关系 ,而 随 着 
部 署 在 互联 网 的 应 用 越 来 越 多 ,应 用 安全 问题 变 得 越发 突出 。 作 为 互联 网 应 用 的 主流 客户 
端 一 一 浏览 器 需要 人 为 的 点 击 和 数据 输入 ,并 且 所 有 的 执行 可 能 会 对 宿主 计算 机 产生 安全 
威胁 ,因此 在 应 用 安全 监测 方面 的 效率 和 及 时 性 会 受到 很 大 影响 。 而 基于 网 络 息 虫 技术 , 则 
可 以 在 很 大 程度 上 改变 这 种 情况 。 网 页 挂 马 的 监测 就 是 在 怜 虫 获取 页 面 后 对 页 面 中 所 包含 
的 动态 脚本 进行 特征 分 析 。SQL 注入 是 另 一 种 常见 的 应 用 安全 问题 ,可 以 通过 和 怜 虫 技术 向 
所 要 监测 的 Web 服务 器 发 起 查询 命令 。 

5. 内 容 安全 监测 

内 容 安全 是 网 络 信息 安全 的 最 高 层次 ,敏感 信息 .泄密 信息 等 的 监测 需要 从 内 容 层面 分 
析 其 安全 属性 ,而 对 于 这 些 信 息 的 获取 与 监测 需要 在 当事人 不 知情 的 情况 下 快速 及 时 进行 ， 
因此 ,采用 自动 化 的 息 虫 技术 手段 是 合理 的 选择 。 

6. 学术 论文 采集 

学 术 疏 虫 专门 从 互联 网 中 疏 行 公开 的 学 术 论文 ,是 构建 学 术 搜 索 系 统 的 关键 基础 。 目 
前 ,国内 外 有 许多 类 似 的 搜索 ,如 Google Scholar、Microsoft Academic Search .CiteSeer 及 
百度 学 术 等 。 此 类 疏 虫 专门 获取 PDF、Word、PostScript 及 压缩 文档 。 

7. 离线 浏览 

离线 浏览 允许 用 户 设 置 若 干 个 网 站 ,将 页 面 从 服务 器 下 载 到 用 户 硬盘 中 ,从 而 可 以 在 不 
连接 互联 网 的 情况 下 进行 Web 浏览 。 实 现 这 种 功能 的 是 离线 浏览 器 ,典型 的 离线 浏览 器 包 
括 Offline Browser、WebZIP、WebCopier 等 。 它 们 的 核心 技术 就 是 疏 虫 技术 ,只 是 在 执行 
时 ,离线 浏览 器 需要 限定 爬行 的 范围 , 即 所 需要 疏 行 的 网 站 列表 ,以 免 疏 虫 漫 无 边际 地 沿 着 
页 面 超 链接 下 载 其 他 网 站 的 页 面 内 容 。 

可 以 预计 , 随 着 互联 网 大 数据 在 各 个 行业 得 到 越 来 越 多 的 关注 ,运用 疏 虫 技术 进行 数据 
获取 将 变 得 更 加 普遍 ,应 用 领域 和 场景 会 越 来 越 丰 富 。 可 以 从 多 个 不 同 的 维度 来 对 怜 虫 进 
行 分 类 ,这 样 有 利于 帮助 人 们 在 选择 和 运用 疏 虫 技术 时 能 更 完整 全 面 地 进行 分 析 。 以 下 是 
关于 疏 虫 程序 的 分 类 方法 。 

(1) 从 疏 虫 抓 取 的 链接 范围 看 ,可 以 分 为 基于 整个 Web 的 聆 虫 和 基于 局 部 确定 范围 的 
疏 虫 。 前 者 以 下 载 整个 互联 网 中 的 所 有 页 面 为 目标 ,后 者 则 是 由 用 户 指 定 某 个 确定 的 抓 取 
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范围 。 对 于 搜索 引擎 系统 而 言 .其 所 采用 的 方式 是 基于 整个 Web 的 怜 虫 。 但 是 这 种 类 型 的 
Web 信息 获取 方式 ,会 受 存储 设施 及 Web 页 面 数量 动态 增长 的 限制 。 从 目前 公布 的 数据 
来 看 ,容量 最 大 的 搜索 引擎 也 不 过 抓 取 了 整个 网 页 数量 的 40% 左 右 。 

(2) 伶 虫 抓 取 的 页 面 内 容 看 ,可 以 分 为 无 固定 主题 的 和 聆 虫 和 主题 怜 虫 。 前 者 不 对 疏 
行 的 页 面 内 容 进 行 分 析 , 而 直接 将 所 访问 的 页 面 内 容 存 储 下 来 。 主 题 怜 虫 则 需要 在 人 为 事 
先 设 定好 的 某 个 主题 限定 下 ,对 页 面 内 容 进 行 分 析 , 只 保存 与 主题 相关 的 页 面 。 无 固定 主题 
的 疏 虫 主要 在 传统 互联 网 搜索 引擎 等 不 关注 页 面 内 容 的 场合 下 使 用 ,而 主题 假 虫 主要 在 垂 
直 搜 索引 擎 .互联 网 与 情 监测 等 与 某 个 具体 主题 有 密切 联系 的 场合 下 使 用 。 

(3) 从 聆 虫 的 执行 模式 看 ,可 以 分 为 批量 型 怜 虫 和 增 量 型 怜 虫 。 批 量 型 怜 虫 在 设 定 疏 
行 目标 之 后 ,就 开始 工作 , 当 目 标 完成 后 即 可 停止 页 面 的 抓 取 。 这 种 目标 可 以 通过 页 面 数 
量 、 息 行 时 间 、 息 行 的 站 点 数 等 具体 特征 来 描述 。 而 增 量 型 息 虫 需要 能 够 一 直 持 续 不 断 地 进 
行 页 面 的 抓 取 。 相 对 而 言 , 在 实际 应 用 中 增 量 型 算 虫 的 应 用 更 加 广泛 。 一 方面 互联 网 上 的 
Web 页 面 不 断 增加 ,页 面 内 容 也 经 常会 更 新 ,如 一 些 列表 式 的 新 闻 页 面 ,总 是 不 断 地 增加 新 
闻 条 目 ; 另 一 方面 ,由 于 息 虫 在 运行 中 会 受到 机 器 性 能 、 网 络 环境 性 能 等 的 影响 ,可 能 会 在 
没有 完成 代行 目标 的 情况 下 停止 工作 ,因此 也 就 要 求 仆 虫 具备 增 量 型 的 功能 ,以 便 在 重新 开 
始 时 不 会 重新 疏 行 已 经 获取 的 Web 页 面 。 

(4) 从 聆 虫 的 内 部 功能 协调 方式 看 ,可 以 分 为 单线 程 怜 贝 和 多 线程 朴 虫 。 一 般 怜 虫 的 
内 部 功能 可 以 分 为 网 络 连接 ,页 面 请 求 和 接受 链接 提取 ,内容 提取 和 数据 保存 等 多 个 部 分 。 
如 果 这 些 不 同 的 功能 在 执行 过 程 中 ,按照 顺序 执行 方式 进行 协调 ,就 称 为 单线 程 仆 虫 。 而 如 
果 允 许 这 些 不 同 的 功能 可 以 同时 执行 或 者 同一 个 功能 可 以 有 多 个 实例 ,那么 就 称 为 多 线程 
爬虫 。 显 然 多 线程 聆 虫 可 以 充分 利用 计算 机 的 网 络 带宽 ,硬盘 读 写 及 CPU 处 理 等 资源 ,但 
是 多 线程 的 方式 使 得 线程 之 间 的 任务 分 配 和 协调 变 得 困难 。 因 此 ,在 疏 行 任务 比较 少 的 情 
况 下 ,基于 单线 程 方式 可 以 快速 构建 出 候 虫 系统 ; 而 在 怜 行 任务 比较 多 的 情况 下 ,可 以 优先 
考虑 多 线程 怜 虫 ; 而 当 候 虫 任务 非常 多 的 情况 下 ,就 需要 将 这 种 多 线程 的 协调 结构 拓展 到 
分 布 式 结构 上 了 。 例 如 , 现 有 的 互联 网 搜索 引擎 的 息 虫 系统 实际 上 都 是 一 种 分 布 式 的 架构 。 

在 实际 进行 互联 网 大 数据 的 获取 时 , 息 虫 系统 的 设计 就 需要 结合 具体 情况 ,考虑 是 否 需 
要 依赖 于 某 个 或 若干 个 主题 .是 否 在 有 限 的 链接 或 网 站 范围 内 等 因素 ,比如 针对 财经 新 闻 获 
取 , 可 能 最 终 选择 的 是 一 种 增 量 型 .局 部 、 多 线程 的 主题 候 虫 。 

随 着 疏 虫 技术 研究 的 发 展 , 影 响 疏 虫 性 能 的 关键 技术 已 被 逐步 解决 。 在 互联 网 应 用 的 
推动 下 ,特别 是 大 数据 思维 的 指引 下 ,人 们 在 解决 许多 现实 问题 时 都 转向 互联 网 寻求 更 丰富 
的 数据 。 在 这 种 背景 下 ,一些 独 立 于 具体 应 用 的 怜 虫 系统 被 不 断 地 设计 开发 出 来 ,从 而 使 得 
互联 网 大 数据 的 获取 和 构建 变 得 更 加 容易 。 从 目前 的 一 些 独立 疏 虫 系统 看 ,典型 的 有 以 下 
两 种 。 

(1) 八 爪 鱼 (http://www. bazhuayu. com/)。 这 是 一 款 网 页 采集 软件 ,可 以 采集 各 种 
不 同 的 网 站 或 者 网 页 ,并 提取 规范 化 数据 。 

(2) Heritrix (http://www. wanwuyun. com/pages/news/312. html)。Heritrix 是 一 
个 由 Java 开发 的 .开源 的 网 络 怜 虫 . 用 户 可 以 使 用 它 来 从 网 上 抓 取 想 要 的 资源 。 其 最 出 色 
之 处 在 于 它 良 好 的 可 扩展 性 ,方便 用 户 实现 自己 的 抓 取 逻辑 。Heritrix 采用 的 是 模块 化 的 
设计 ,各 个 模块 由 一 个 控制 器 类 (CrawlController 类 ) 来 协调 ,控制 器 是 整体 的 核心 。 
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2.2 疏 虫 的 内 核 技术 


根据 上 一 节 对 仆 虫 类 型 的 分 析 , 可 以 看 出 ,尽管 仆 虫 类 型 很 多 ,但 是 可 以 将 仆 虫 要 完成 
的 功能 分 解 成 为 两 个 层次 。 第 一 个 层次 是 怜 虫 的 基本 功能 , 即 获 取 页 面 所 需要 的 功能 模块 
构成 ,是 每 一 种 怜 虫 都 需要 实现 的 功能 ,通常 包括 建立 网 络 连 接 、 页 面 请 求 与 解析 ,链接 分 
析 、 疏 行 队列 管理 等 基础 性 工作 ,主要 针对 的 是 简单 的 疏 虫 结构 。 第 二 个 层次 则 是 针对 各 种 
复杂 类 型 候 虫 所 需要 做 的 扩展 ,如 URL 范围 控制 .主题 识别 .支持 增 量 式 , 这 些 并 非 是 每 种 
息 虫 都 需要 实现 的 功能 。 

在 怜 虫 的 技术 原理 和 实现 上 ,从 这 两 个 层面 来 分 析 怜 虫 ,能 更 清晰 地 理解 怜 虫 的 工作 原 
理 和 关键 技术 。 与 功能 分 解 相对 应 ,本 书 把 这 两 个 层面 的 技术 分 别称 为 内 核 技术 和 扩展 技 
术 , 如 图 2-1 所 示 。 本 节 主 要 介绍 怜 虫 的 内 核 技术 ,而 各 种 关键 的 扩展 技术 将 在 本 章 后 续 部 
分 中 展开 叙述 。 
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图 2-1 疏 虫 技术 构成 


网 络 怜 虫 的 内 核 技术 构成 如 图 2-2 所 示 ,它们 完成 一 个 基本 流程 。 首 先是 由 Web 服务 
器 连接 器 向 指定 的 Web 服务 器 发 起 连接 请 求 , 在 建立 候 虫 和 Web 服务 器 之 间 的 网 络 连接 
之 后 ,在 该 连接 上 向 服务 器 发 送 URL 页 面 请 求 命令 , Web 服务 器 反馈 页 面 内 容 , 即 HTML 
编码 的 文本 信息 ,由 页 面 解析 器 对 HTML 文本 进行 分 析 , 提 取 其 中 所 包含 的 URL, 对 URL 
进行 过 滤 , 根 据 所 设 定 的 仆 行 策略 ,将 每 个 URL 放 入 到 URL 队列 的 适当 位 置 。 而 当 某 个 
URL 对 应 的 页 面 候 行 完 毕 后 .连接 器 从 队列 中 获取 下 一 个 URL 作为 新 的 仆 行 起 点 。 上 述 
过 程 不 断 地 重复 下 去 。 当 然 在 这 个 过 程 中 ,对 页 面 进行 保存 等 其 他 功能 取决 于 具体 应 用 ,就 
没有 体现 在 这 个 图 中 。 
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图 2-2 网 络 息 虫 内 核 技术 构成 
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2.2.1 Web 服务 器 连接 器 


Web 服务 器 是 一 种 带 有 可 执行 框架 的 软件 系统 ,在 接收 客户 端的 URL 请 求 之 后 , 它 能 
够 对 该 请 求 进行 分 析 ,提取 出 其 中 所 包含 的 虚拟 路 径 ,并 到 服务 器 上 对 应 的 磁盘 目录 获得 相 
应 的 文件 。 例 如 ,假设 请 求 的 URL 为: http://news. 163. com/16/0607/09/BOURRBBN 
00014JB6. html, 那 么 /16/0607/09 将 会 被 Web 服务 器 提取 并 作为 硬盘 中 某 个 目录 下 的 子 
目录 ,从 而 在 该 子 目 录 下 将 BOURRBBN00014JB6. html 文件 读 取 出 来 ,并 通过 已 经 建立 的 
网 络 连接 发 送 给 疏 虫 客户 端 , 怜 虫 即 可 获得 HTML 文件 内 容 。 而 对 于 动态 页 面 ,如 JSP、 
ASP.PHP 等 ,在 读 出 这 些 文件 后 还 需要 解析 和 执行 其 中 的 代码 ,可 能 需要 进行 更 多 的 操 
作 , 如 数据 库 查询 等 ,最 后 再 生成 HTML 文本 数据 流 。 

这 个 过 程 可 以 用 Java 代码 表示 如 下 : 


URL url = new URL (url); 
HttpURLConnection httpconn = (HttpURLConnection)url. openConnection(); 
InputStream in = httpconn. getInputStream (); 


实际 上 ,对 于 客户 端 而 言 , 它 是 看 不 到 Web 服务 器 是 如 何 处 理 请 求 的 ,但 是 服务 器 的 磁 
盘 性 能 、 网 络 带 宽 、. 并 发 能 力 等 因素 可 能 会 影响 文件 读 取 和 发 送 速度 ,从 而 对 疏 虫 获取 页 面 
内 容 产 生 影响 。 因 此 ,为 了 避免 由 于 长 期 等 待 而 导致 个 虫 性 能 降低 :一 个 优秀 的 怜 虫 程序 ， 
需要 进行 连接 超时 时 间 和 请 求 超 时 时 间 的 设置 ,以 确保 自身 运行 的 正确 性 。 前 者 主要 针对 
疏 虫 和 Web 服务 器 在 建立 网 络 连 接 的 过 程 ,后 者 则 针对 某 个 URL 页 面 内 容 的 获取 过 程 。 
在 读 取 方 法 getInputStream 执行 之 前 ,需要 先 设 置 这 两 个 过 程 对 应 的 超时 参数 ,用 Java 代 
码 表示 如 下 : 


httpconn. setConnectTimeout(5000); // 设 置 连接 超时 为 5 秒 
httpconn. setReadTimeout( 30000); // 设 置 读 取 页 面 内 容 超 时 为 30 秒 


从 代码 可 以 看 出 ,在 进行 网 络 连 接 时 ,以 URL 作为 参数 。 而 从 Socket 编程 的 角度 看 ， 
进行 Web 服务 器 的 网 络 连 接 时 ,需要 将 URL 中 的 域名 转换 成 为 IP 地 址 。 这 个 过 程 在 互联 
网 上 是 通过 标准 的 DNS 服务 来 完成 ,但 是 由 于 DNS 解析 时 间 比 较 耗 时 ,因此 可 以 在 怜 虫 系 
统 中 设置 自己 的 DNS 缓存 ,以 减少 对 标准 DNS 的 查询 。 图 2-2 中 的 DNS 缓存 就 是 为 了 实 
现 这 样 的 功能 。 


2.2.2 页 面 解析 器 


静态 型 的 Web 页 面 随 着 互联 网 的 出 现 而 出 现 , 虽 然 目前 有 大 量 的 交互 式 动态 页 面 能 很 
好 地 提升 用 户 体验 ,但 是 由 于 静态 页 面 除了 Web 服务 之 外 ,不 需要 其 他 服务 的 支持 ,对 服务 
器 的 资源 消耗 少 ,因此 这 种 类 型 的 页 面 现 阶段 仍然 被 广泛 使 用 。 动 态 型 页 面 一 般 需 要 数据 
库 等 其 他 计算 、 存 储 服务 的 支持 ,因此 ,需要 消耗 更 多 的 服务 端 资源 。Web 服务 器 在 响应 息 
虫 命令 请 求 时 ,不 管 是 静态 页 面 还 是 动态 页 面 .服务 器 返 送 给 怜 虫 的 信息 一 般 都 是 封装 成 为 
HTML 格式 。 因 此 ,对 于 页 面 解析 器 而 言 .在 处 理 Web 服务 器 响应 信息 时 ,只 要 处 理 
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HTML 格式 的 内 容 就 可 以 了 。 

页 面 解析 器 的 工作 过 程 是 基于 HTML 编码 的 文本 信息 。 在 获取 HTML 信息 内 容 之 
后 ,由 页 面 解 析 器 进行 解析 ,提取 出 其 中 所 包含 的 所 有 URL, 作 为 后 续 爬 行 的 新 开始 。 而 
在 爬虫 的 扩展 部 分 ,通过 对 这 些 URL 进行 域名 检测 ,可 以 实现 疏 虫 获取 局 部 页 面 的 
目标 。 

对 于 HTML 内 容 的 解析 涉及 HTML 编码 ,需要 对 HTML 编码 有 所 了 解 才能 提取 出 
所 需要 的 内 容 。 一 般 的 页 面 解析 器 可 以 提取 的 页 面 内 容 包括 很 多 种 ,在 内 核 层 ,最 主要 的 任 
务 是 从 HTML 中 提取 出 URL。URL 在 HTML 中 是 由 标签 href 来 标识 的 ,但 是 可 能 存在 
两 种 情况 , 即 绝对 路 径 和 相对 路 径 。 以 下 通过 一 个 实例 说 明 路 径 的 提取 方法 。 

假设 在 某 个 页 面 的 HTML 文本 中 包含 以 下 4 个 超 链接 ,该 页 面 对 应 的 URL 是 
http://www. fudan. edu. cn/2016/index. html, 从 这 个 URL 可 以 看 出 ,该 文件 是 保存 在 磁 
盘 虚 拟 根 目录 下 的 2016 子 目 录 中 。 





超 链 接 1: 

<a href = "http://news. fudan. edu. cn/2016/0606/41661. html”target = "_blank"> 我 校 与 清华 大 学 
构建 新 闻 传 播 学 术 共同 体 </a> 

超 链接 2: 

<1i> 

<a href = "../2015/users/guest/type_visitors. htm" class = "visitors"> 公 众 访客 </a> 
</1i> 

超 链接 3: 

<a href = ""> 

< img src = "images/fudan_ logo.png" class = "ctl - logo" /> 

</a> 

超 链接 4: 

eb 

<a href ="../2016/channels/view/43"> 治 理 架 构 </a> 

</1i> 


对 于 超 链接 1, 只 需要 把 “href 一 ”后 面 的 字符 串 提取 出 来 即 可 ,这 是 一 个 绝对 链接 ,由 一 
个 完整 的 http 组 成 。 对 于 超 链接 2, 并 没有 完整 的 http ,单纯 从 这 个 href 所 指定 的 链接 无 
法 知道 其 真正 的 结果 。".. /2015/users/guest/type_visitors. htm" 中 的 ".. ”就 是 表示 上 级 目 
录 , 即 根 目录 ,因此 该 超 链接 对 应 的 文件 位 于 根 目录 下 的 /2015/users/guest/ 子 目录 。 超 链 
接 3 是 除了 href 外 的 另 一 个 种 存在 形式 ,该 链接 指向 一 个 图 片 文件 ,该 文件 是 在 当前 目录 
下 的 images 子 目 录 中 。 超 链接 4 与 其 他 3 个 超 链接 主要 的 区 别 是 没有 指定 对 应 的 文件 , 根 
据 Web 服务 器 的 默认 规则 ,该 文件 是 在 当前 目录 的 channels/view/43 子 目 录 下 ,文件 名 可 
以 是 index. html index. htm 等 。 

由 于 超 链 接 通常 具有 固定 的 模式 ,因此 在 具体 实现 页 面 链接 提取 时 ,采用 正则 表达 式 匹 
配方 法 是 比较 简易 的 实现 方法 。 例 如 .以 下 Java 片段 可 以 从 双 引 号 的 < a > 标签 中 提 
取 URL。 





第 2 章 Web 页 面 数据 获取 25 
String pattern= "href ="([^"]*)""; 


Pattern p= Pattern. compile(pattern, 2 | Pattern. DOTALL); 
Matcher m= p.matcher(html]_content); 
if(m.find()) { 

System. out. println(" 提 取出 来 的 url 是: "+m.group(1)); 
} 


此 外 ,考虑 到 扑 虫 在 处 理 页 面 时 通常 也 需要 提取 页 面 内 容 , 特 别 是 涉及 页 面 内 容 分 析 的 
主题 假 虫 ,因此 , 超 链 接 的 提取 和 页 面 内 容 的 提取 可 以 作为 一 个 整体 来 处 理 , 而 能 够 完成 这 
类 任务 的 通常 就 不 是 简单 的 正则 表达 式 匹配 方法 所 能 解决 的 。 一 些 基 于 DOM 树 的 页 面 解 
释 器 ,如 HTMLParser, 就 具备 这 种 功能 。 

上 述 4 个 超 链接 提取 出 来 ,分 别 是 : 

http://news. fudan. edu. cn/2016/0606/41661. html 

http://news. fudan. edu. cn/2015/users/guest/type_visitors. htm 


http://www. fudan. edu. cn/2016/images/fudan_logo. png 
http://www. fudan. edu. cn/2016/channels/view/43 


然而 在 解析 出 URL 之 后 ,通常 需要 对 这 些 URL 进行 适当 的 过 滤 , 如 图 2-2 所 示 。 这 里 
进行 过 滤 是 考虑 到 两 个 因素 : 一 是 需要 排除 本 次 已 经 爬行 过 的 URL; 二 是 遵守 友好 息 虫 协 
议 , 将 robots. txt 文件 中 设 定 的 不 允许 爬行 的 URL 排除 掉 。 


2.2.3 疏 行 策略 搜索 


对 于 互联 网 大 数据 的 获取 ,通常 需要 面 对 海 量 的 Web 页 面 ,如何 对 这 些 页 面 进行 高 效 
的 获取 是 候 虫 遇 到 的 主要 难点 之 一 。 所 谓 高 效 , 最 基本 的 要 求 就 是 要 在 尽 可 能 短 的 时 间 内 
获取 尽 可 能 多 的 重要 页 面 。 对 爬行 过 程 中 从 每 个 页 面 解析 得 到 的 超 链接 进行 合适 的 安排 ， 
即 按照 什么 样 的 顺序 对 这 些 超 链接 进行 仆 行 ,这 就 是 仆 行 搜索 策略 。 

由 于 每 个 互联 网 上 所 有 的 Web 页 面 可 以 抽象 化 成 为 一 张 有 向 图 ,图 中 的 每 个 节点 对 应 
于 一 个 Web 页 面 ,页 面 之 间 的 链接 则 表示 节点 之 间 的 有 向 边 。 在 图 理论 中 ,图 的 遍历 就 是 
解决 节点 的 访问 顺序 问题 。 图 的 遍历 算法 有 两 种 , 即 深度 优先 算法 和 宽度 优先 算法 。 
图 2-3 是 一 个 页 面 链接 的 有 向 图 ,假如 从 节点 A 开始 , 则 这 两 种 遍历 结果 如 下 。 

cu 


Ca) (OO 中 (Ea) 


图 2-3 页 面 链接 的 有 向 图 
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深度 优先 , A 一 B 一 F 一 I 一 C 一 D 一 G 一 H 一 J 一 E。 

宽度 优先 : A 一 B 一 C 一 D 一 E 一 F 一 G 一 H 一 I 一 J。 

类 似 地 ,在 怜 虫 的 搜索 策略 中 ,也 可 以 采用 深度 优先 策略 和 宽度 优先 策略 来 决定 URL 
的 候 行 顺序 。 在 某 个 给 定 的 初始 页 面 情况 下 ,深度 优先 策略 优先 搜索 沿 着 该 页 面 上 的 超 链 
接 一 直 走 到 不 能 再 深入 为 止 , 然 后 返回 到 某 一 个 页 面 ,再 继续 选择 相应 的 HTML 文件 中 的 
其 他 超 链 接 。 宽 度 优先 策略 则 优先 搜索 与 某 个 页 面 有 直接 连接 的 所 有 页 面 。 

Web 页 面 链 接 图 毕竟 有 自己 独 有 的 特点 ,因此 设计 爬行 策略 时 ,需要 进行 一 定 权 衡 , 考 
虑 多 方面 的 影响 因素 。 

首先 ,对 于 疏 虫 来 说 , 疏 行 的 初始 页 面 一 般 是 某 个 比较 重要 的 页 面 , 如 某 个 公司 的 首页 、 
新 闻 网 站 的 首页 等 。 根 据 网 页 设计 部 署 的 用 户 体验 方面 的 原则 ,重要 的 链接 大 都 会 放 在 首 
页 上 ,由 此 ,可 以 做 这 样 的 假设 , 即 与 某 个 页 面 有 直接 连接 的 所 有 页 面相 对 该 页 面 而 言 , 其 重 
要 性 比 与 该 页 面 没有 直接 连接 的 页 面 要 大 。 此 外 ,一 般 情况 下 ,在 网 站 页 面 结构 部 署 时 ,会 
将 越 重要 的 页 面 放 在 离 首 页 越 近 的 层次 上 ,这 也 是 为 了 避免 用 户 单 击 很 多 层 页 面 之 后 才 获 
得 重要 的 内 容 。 也 就 是 说 ,在 同一 个 站 点 内 部 ,每 深入 一 层 ,页 面 的 价值 或 重要 性 就 会 有 所 
下 降 。 根 据 这 两 个 合理 的 假设 ,采用 宽度 优先 策略 ,就 能 快速 获得 重要 页 面 。 

其 次 ,从 怜 虫 管理 众多 页 面 超 链接 的 效率 来 看 ,宽度 优先 策略 可 以 通过 简单 的 队列 来 实 
现 ,队列 的 操作 非常 简单 。 例 如 ,在 解析 完 页 面 A 之 后 ,可 以 得 到 BCDE 4 个 超 链 接 , 即 可 
以 将 它们 放 入 队列 ,然后 由 Web 服务 器 连接 器 从 队列 的 男 一 端 逐 个 读 出 需要 扑 行 的 页 面 
URL。 当 解析 到 页 面 召 时 ,再 把 指向 眉 的 超 链 接 放 入 队列 。 这 种 结构 不 需要 复杂 的 爬行 任 
务 管理 ,实现 方法 较为 简单 高 效 ,并 且 也 有 利于 多 个 息 虫 并 行 候 取 方式 的 实现 。 而 深度 优先 
策略 , 则 需要 通过 栈 来 实现 .需要 相对 复杂 的 入 栈 和 出 栈 操作 。 

再 次 ,从 页 面 优先 级 的 角度 看 , 候 虫 虽然 从 某 个 指定 的 页 面 作为 仆 行 的 初始 页 面 ,但 是 
在 确定 下 一 个 要 扑 行 的 页 面 时 .总 是 希望 优先 级 高 的 页 面 先 被 候 行 。 对 于 上 述 宽 度 优先 策 
略 的 例子 ,BCDE 4 个 页 面 其 实 并 没有 规定 它们 被 仆 行 的 顺序 ,在 页 面 数 量 不 大 的 情况 下 ， 
这 种 爬行 顺序 的 影响 并 不 大 。 但 是 当 页 面 数量 很 大 时 ,如 对 于 新 闻 门 户 网 站 ,其 第 二 层 页 面 
数量 就 很 大 ,决定 爬行 顺序 对 于 提高 疏 虫 效率 就 变 得 很 关键 。 

最 后 , 怜 虫 在 对 某 个 Web 服务 器 上 页 面 进 行 仆 行 时 需要 先 建立 网 络 连 接 , 占 用 主机 和 
连接 资源 ,适当 对 这 种 资源 占用 进行 分 配 是 非常 必要 的 。 如 图 2-4 所 示 , 假 设 息 虫 在 某 个 网 
站 上 的 1 页 面 中 ,解析 出 若干 个 超 链 接 , 这 些 超 链接 分 别 指向 外 部 网 站 A、B、C, 这 样 在 执行 
宽度 优先 策略 搜索 时 ,就 可 能 会 产生 多 个 新 的 Socket 网 络 连 接 。 而 且 随 着 这 种 外 部 链接 数 




















图 2-4 外 部 链接 所 导致 的 网 络 连 接 资 源 消耗 
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量 的 增多 ,在 同一 个 时 间 段 内 ,这 种 怜 虫 端 所 需要 的 网 络 连接 个 数 可 能 会 剧 增 , 从 而 严重 影 
响 疏 虫 的 整体 性 能 。 

此 外 ,由 于 页 面 之 间 的 链接 结构 非常 复杂 ,可 能 存在 双向 链 
接 、 环 链接 等 情景 ,如 图 2-5 所 示 , 从 页 面 1 开始 ,采用 宽度 优先 
策略 的 仆 行 顺序 为 1263451 ,而 采用 深度 优先 策略 的 怜 行 顺序 是 
123451。 不 管 是 宽度 优先 策略 还 是 深度 优先 策略 ,都 会 在 页 面 
内 部 形成 某 种 环 状 , 称 为 息 虫 陷入 (Trapped)。 因 此 ,在 遍历 过 
程 中 ,对 路 径 上 的 每 个 页 面 节点 都 需要 进行 “是 否 息 行 过 ”的 
检查 。 

目前 ,宽度 优先 策略 是 常用 的 怜 虫 搜索 策略 ,但 是 各 种 爬行 
策略 并 非 只 有 优点 而 没有 缺点 ,因此 实际 上 采用 混合 策略 的 情况 可 能 会 更 普遍 。 结 合 优先 
级 排序 就 是 关键 的 一 种 途径 。 而 关于 页 面 重要 性 的 计算 问题 ,在 搜索 引擎 系统 中 是 非常 重 
要 的 。 一 方面 用 于 搜索 结果 的 排序 , 另 一 方面 在 怜 虫 怜 行 的 过 程 中 用 来 对 页 面 的 优先 级 
估算 。 

PageRank 称 为 网 页 排名 ,又 称 为 网 页 级 别 .Google 左 侧 排名 或 佩 奇 排名 ,是 一 种 根据 
网 页 之 间 相 互 的 超 链接 计算 页 面 级 别 的 方法 。 它 由 Larry Page 和 Sergey Brin 在 20 世纪 
90 年 代 后 期 发 明 。 该 算法 简单 介绍 如 下 。 

对 于 某 个 页 面 wk,B,. 表示 指向 4 的 所 有 页 面 集合 ,那么 4 的 PR 值 可 以 按照 式 (2-1) 
计算 : 











图 2-5 怜 虫 陷 人 问题 


PRCo) = (2-1) 
式 中 ,L(v) 为 页 面 v 所 指向 的 页 面 个 数 , 因 此 这 个 式 子 相 当 于 把 某 个 页 面 的 重要 性 平均 分 
配给 它 所 指向 的 每 个 页 面 。 
但 是 ,实际 上 , 某 个 页 面 除 了 可 以 通过 指向 它 的 超 链 接 进入 该 页 面 外 ,还 有 其 他 途径 可 
以 直接 访问 该 页 面 ,如 通过 浏览 器 提供 的 收藏 夹 或 直接 输入 网 址 等 ,因此 页 面 的 重要 性 应 当 
还 有 一 部 分 要 留 给 这 些 直接 访问 方式 ,在 Page 和 Brin 的 原始 文章 中 ,就 引入 了 一 个 参数 
d, 称 为 阻尼 因子 。 这 样 对 于 某 个 页 面 %, 其 PR 值 就 可 以 改写 为 : 


PR(v) 
L(v) 


式 中 ,d 的 取 值 一 般 设 定 为 0.85. 这 样 可 以 认为 其 他 途径 的 访问 占 0. 15。 
后 来 有 人 认为 ,一 个 页 面 被 访问 的 随机 性 应 当 来 自 其 他 所 有 页 面 .因此 计算 公式 被 修 
正 为 : 





PR(z) =1—d+d》) (2-2) 
vEB, 


PR(v) 
L(v) 


式 中 ,NN 为 搜索 引擎 收录 的 页 面 总 数 , 把 这 种 随机 访问 平均 分 配给 所 有 页 面 。 

式 (2-3) 两 边 都 含有 PR 值 .这 是 一 种 迭代 计算 .而 在 PR 算法 的 论文 中 已 经 证 明了 这 种 
计算 过 程 的 收敛 性 ,与 每 个 节点 的 初始 PR 值 没有 关系 ,收敛 时 的 PR 值 即 为 每 个 页 面 的 
PR 值 。 但 实际 上 ,从 爬虫 获取 页 面 的 过 程 来 看 ,并 不 是 所 有 页 面 都 获取 完毕 后 再 去 计算 它 
们 的 PR 值 .而 是 一 个 边 息 行 边 进行 计算 的 动态 过 程 。 这 种 动态 计算 可 能 产生 一 定 偏差 , 特 


(2-3) 





PR(W = 1 +4dy) 
N 7EB, 
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别 是 在 候 行 的 初始 阶段 。 

Abiteboul 等 于 2003 年 提出 的 在 线 页 面 重要 性 指数 OPIC(On-Line Page Importance 
Computation) 是 一 种 更 适合 于 疏 虫 动态 计算 页 面 重要 性 的 方法 。 在 OPIC 中 ,每 一 个 页 面 
都 有 一 个 相等 的 初始 权 值 ,并 把 这 些 权 值 平均 分 给 它 所 指向 的 页 面 。 这 种 算法 与 PageRank 
相似 。 在 页 面 抓 取 过 程 中 ,通过 前 向 链接 将 这 种 权 值 平均 分 给 该 网 页 指向 的 所 有 页 面 (分 配 
过 程 一 次 完成 ) ,而 候 虫 在 候 取 过 程 中 只 需 优先 抓 取 权 值 较 大 的 页 面 。 但 是 ,由 于 Web 的 实 
际 深度 最 大 能 达到 17 层 , 网 页 之 间 四 通 八 达 , 存 在 复杂 的 页 面 链接 结构 ,因此 ,OPIC 在 线 
计算 仍 无 法 准确 地 计算 每 个 页 面 的 优先 级 。 如 图 2-6 所 示 ,采用 宽度 优先 策略 , 疏 虫 从 页 面 
1 开始 ,图 2-6(a) 所 示 的 是 上 时刻 解 析 到 的 4 个 页 面 链接 ,这 4 个 页 面 的 重要 性 是 相同 的 。 
图 2-6(b) 所 示 的 是 :十 1 时 刻 , 仆 虫 解析 到 两 个 新 的 指向 页 面 5 的 超 链接 ,从 而 增加 了 该 页 
面 的 重要 性 。 





(a) (b) 
图 2-6 页 面 重要 性 动态 更 新 的 情况 


除了 上 述 提 到 的 候 虫 搜索 策略 外 ,还 有 一 种 称 为 合作 抓 取 的 策略 也 经 常 被 采纳 。 这 种 
方法 是 由 站 点 主动 向 息 虫 提供 站 点 内 各 个 页 面 的 重要 性 信息 。 通 过 这 种 信息 ,网 站 中 的 新 
增加 或 经 常 更 新 的 页 面 内 容 能 及 时 地 被 前 来 仆 行 的 候 虫 所 获取 ,提高 候 虫 的 执行 效率 。 

这 种 策略 是 通过 Sitemaps 协议 ?来 实现 的 。 该 协议 是 由 Google 于 2005 年 提出 来 的 ， 
目前 已 经 得 到 Yahoo、Bing 等 搜索 引擎 系统 的 支持 , 比 Robots 协议 更 强大 一 些 。Sitemaps 
协议 是 一 种 网 站 和 搜索 引擎 之 间 的 网 站 页 面 结构 共享 协议 ,提供 了 一 种 网 站 告知 搜索 引擎 
息 虫 系统 可 供 候 行 的 网 址 列表 ,方便 搜索 引擎 仆 虫 能 够 快速 了 解 网 站 的 目录 结构 。 

基于 该 协议 ,首先 由 网 站 向 搜索 引擎 提交 sitemap. xml 文件 , 它 是 一 个 包含 了 某 网 站 所 
有 页 面 的 XML 格式 文件 。 搜 索引 擎 在 获得 该 文件 后 ,就 可 以 对 文件 中 指定 的 每 个 URL 进 
行 分 析 , 从 而 决定 哪些 应 当 被 怜 行 。 这 样 ,搜索 引擎 的 怜 虫 系统 就 不 必 对 网 站 的 页 面 逐 一 地 
分 析 抓 取 , 提 高 了 效率 ,也 降低 了 对 服务 器 资源 的 占用 。 

除了 将 该 文件 上 传 到 搜索 引擎 系统 外 ,也 可 以 放 在 Web 站 点 的 根 目录 下 面 的 ,这 样 除 
了 Google 等 大 型 搜索 引擎 的 聆 虫 外 ,其 他 普通 爬虫 可 以 先 到 根 目录 下 检查 并 解析 该 文件 ， 
从 而 可 以 发 现 站 点 管理 员 的 意图 。 

sitemap. xml 文件 是 该 协议 最 重要 的 部 分 . 它 是 严格 按照 XML 语言 编写 的 。 该 文件 中 
使 用 6 个 标签 ,其 中 关键 标签 包括 URL 地 址 、 更 新 时 间 、 更 新 频率 和 索引 优先 权 。Google 
提供 了 该 文件 的 详细 写法 。 一 个 样 例如 下 : 


©® https://www. xml-sitemaps. com/about-sitemaps. html. 
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<?xml version= "1.0" encoding = "UTF — 8"?><?xml - stylesheet type = "text/xsl" href = "http:// 
www. uedsc. com/wp - content/plugins/google — sitemap ~— generator/sitemap. xs1"?> 
<urlset xmlns:xsi = "http://www.w3. org/2001/XMLSchema - instance" xsi:schemaLocation= 
"http://www. sitemaps. org/schemas/sitemap/0.9 
http://www. sitemaps. org/schemas/sitemap/0.9/sitemap. xsd" 
xmlns = "http://www. sitemaps. org/schemas/sitemap/0.9"> 
<url> 
< loc> http://demo. nds. fudan. edu. cn/</loc > 
<lastmod> 2013— 06— 13 </lastmod> 
< changefreq > Always </changefreq> 
<priority>1 </priority> 
</url> 
<url> 
< loc> http://demo. fudan. edu. cn/channels/view/108 </loc> 
< lastmod> 2013 — 06— 13 </lastmod> 
< changefreq > Always </changefreq> 
<priority> 0.9 </priority> 
</url> 
</urlset> 





在 该 文件 中 ,< loc ></loc > 指定 了 URL 地 址 ,lastmod 指出 了 该 页 面 文件 上 次 修改 的 
日 期 ,采用 W3C Datetime 格式 。changefreq 表示 页 面 可 能 的 更 新 频率 ,有 效 取 值 为 
always .hourly .daily、weekly .monthly ,yearly never。Ppriority 描述 的 是 文件 中 指定 的 优先 
级 ,相对 于 网 站 上 其 他 页 面 而 言 , 有 效 值 范围 为 0.0 一 1.0。 

sitemap. xml 文件 创建 好 了 之 后 ,就 可 以 提交 给 各 个 搜索 引擎 。 例 如 ,向 Google 提交 
(https://www. google. com/ webmasters/tools/home? hl 一 zh-cn) 需 要 申请 Google 账号 登 
录 后 操作 。 向 Bing 提交 的 地 址 是 http://www. bing. com/toolbox/ webmaster。 
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主题 蛋 虫 也 称 为 聚焦 聆 虫 (Focused Crawler) ,从 功能 上 看 , 它 主 要 爬行 于 某 些 预 先 设 
定好 的 主题 的 相关 Web 页 面 . 各 种 面向 特定 领域 的 怜 虫 ,如 旅游 领域 伶 虫 .财经 新 闻 疏 虫 
等 ,都 是 属于 这 类 。 显 然 在 互联 网 大 数据 分 析 中 ,此 类 疏 虫 目标 明确 ,更 有 价值 。 从 功能 实 
现 的 角度 看 ,主题 怜 虫 在 朴 虫 内 核 的 基础 上 增加 了 主题 定义 、 链 接 相 关 度 估 算 和 内 容 相关 度 
计算 三 大 技术 实现 。 


2.3.1 主题 仆 虫 模块 构成 


图 2-7 所 示 的 是 主题 候 虫 的 技术 构成 .对 比 图 2-2 的 怜 虫 内 核 构成 ,主题 疏 虫 扩展 了 虚 
框 中 的 3 个 部 分 。 在 扩展 部 分 .由 页 面 解 析 器 提取 得 到 的 超 链 接 需 要 经 过 链接 相关 度 的 估 
算 ,初步 判断 为 可 能 是 与 主题 相关 的 超 链接 之 后 , 才 进 行 疏 行 策略 的 搜索 。 同 时 ,页 面 解析 
器 在 主题 疏 虫 中 ,还 需要 完成 一 项 重要 的 任务 提取 页 面 中 的 正文 部 分 。 再 由 新 增加 的 
内 容 相关 度 计算 模 块 对 这 些 正 文 信息 计算 主题 的 相关 度 。 最 后 将 相关 度 符合 要 求 的 页 面 存 
储 到 本 地 系统 。 在 内 容 相关 度 计算 和 链接 相关 度 估算 的 过 程 中 .都 需要 利用 某 个 生成 好 的 
主题 信息 。 
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主题 信息 是 主题 候 虫 中 最 为 重要 的 部 件 , 它 为 两 个 相关 度 计算 提供 衡量 标准 。 因 此 ,要 
求 主题 信息 必须 容易 被 用 于 相关 度 计算 。 在 两 个 相关 度 计算 过 程 中 ,实际 上 隐 含 了 某 种 过 
滤 过 程 ,也 就 是 把 不 符合 相关 度 要 求 的 页 面 过 滤 掉 ,这 种 决策 通常 由 用 户 来 执行 ,具体 可 体 
现 为 用 户 设 定 相关 度 阔 值 。 因 此 ,这 种 相关 度 计算 方法 要 能 为 阔 值 的 设置 提供 有 效 的 参考 。 
如 果 相 似 度 能 控制 在 一 定 范围 内 ,那么 用 户 在 设 定 这 些 阔 值 参数 时 ,就 会 心中 有 数 。 因 此 ， 
图 2-7 左上 角 的 "用 户 ? 需 要 完成 两 项 工作 , 即 主题 的 设 定 , 包 括 链接 相关 度 和 内 容 相 关 度 在 
内 的 主题 相关 度 大 小 的 阔 值 设 定 。 
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图 2-7 主题 疏 虫 的 技术 构成 


2.3.2 主题 定义 


主题 代表 着 某 种 叙事 范围 , 怜 虫 在 这 种 范围 内 进行 页 面 内 容 的 检测 。 最 大 的 问题 也 是 
最 难 的 问题 ,就 是 如 何 定义 主题 ,如 何 描述 一 个 主题 。 从 目前 所 使 用 的 方法 看 ,主要 有 以 下 
几 种 方法 。 

(1) 采用 关键 词 集 来 描述 一 个 主题 。 如 果 想 抓 取 与 “大 数据 "有 关 的 页 面 , 最 简单 的 方 
式 就 是 用 “大 数据 "这 个 词汇 作为 主题 的 定义 ,但 是 不 含有 大 数据 的 页 面 也 可 能 是 与 “大 数 
据 ” 相 关 的 ,如 一 些 讨论 数据 挖掘 技术 的 页 面 。 因 此 ,采用 关键 词 集合 描述 主题 时 ,需要 尽 可 
能 完整 地 考虑 到 所 关注 的 主题 可 能 涉及 关键 词 。 

(2) 对 关键 词 集 进行 某 种 划分 ,通过 对 子 主题 的 描述 来 实现 对 整个 主题 的 定义 。 例 如 ， 
对 于 “大 数据 ”这 个 主题 可 以 按照 应 用 领域 来 划分 大 数据 ,也 可 以 按照 技术 构成 来 划分 ,从 而 
可 以 产生 不 同 的 子 话题 。 

主题 的 定义 ,最 终 目的 是 要 能 够 方便 链接 相关 度 和 内 容 相 关 度 的 计算 ,因此 它 必 须 有 一 
种 比较 明确 的 数学 表达 形式 。 根 据 上 述 两 种 方式 的 叙述 ,它们 所 采用 的 数学 表示 方式 分 别 
叙述 如 下 ,具体 的 分 析 说 明 在 本 书 的 后 续 章节 中 会 展开 。 

对 于 关键 词 集合 的 方式 ,在 数学 模型 上 ,可 以 采用 向 量 空间 模型 来 表达 。 向 量 空间 模型 
将 词汇 作为 维度 ,将 词汇 的 权重 作为 相应 的 坐标 ,因此 .主题 就 可 以 表达 成 为 向 量 空间 中 的 
一 个 点 。 而 这 种 模型 中 ,考虑 一 种 特殊 情况 , 即 词汇 的 权重 值 只 有 两 种 取 值 , 即 0 或 1, 这 种 
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特殊 的 向 量 空间 模型 称 为 布尔 模型 。 主 题 用 这 类 模型 可 以 统一 表述 为 : 
开 王 (rrzoz，…zon) (2-4) 
式 中 心 为 关键 词 的 个 数 ; wi 为 第 i 个 关键 词 的 权重 。 
对 于 子 主题 的 描述 方式 ,在 数学 模型 上 , 则 通常 是 采用 概率 模型 ,如 高 斯 混合 模型 .主题 
模型 (Topic Model) 等。 主题 TT 用 这 类 模型 可 以 统一 表述 为 : 


K 
P(T) = Diplz | T) (2-5) 
i=1 


式 中 ,K 为 子 主题 的 个 数 ; j; 为 第 i 个 子 主题 的 成 分 系数 ; p(x| Ti) 为 第 i 个 子 主题 在 词汇 
空间 上 的 分 布 ; x 为 词汇 空间 中 的 词汇 向 量 。 

上 述 是 从 数学 模型 表示 的 角度 考虑 主题 定义 的 方法 ,但 是 从 图 2-7 所 描述 的 流程 看 ,在 
主题 怜 虫 中 需要 由 用 户 ( 即 使 用 者 ) 来 定义 主题 。 然 而 要 由 用 户 给 出 上 述 模型 , 即 式 (2-4)、 
式 (2-5) 中 的 参数 ,这 是 一 件 非 常 困难 的 事 。 因 此 ,在 实际 应 用 中 ,由 用 户 提供 一 些 能 够 代表 
主题 的 文本 集 , 经 过 模型 的 推理 后 自动 产生 模型 定义 ,而 这 个 推理 过 程 在 第 6 章 中 会 进行 详 
细 介 绍 。 加 入 了 这 一 过 程 , 疏 虫 看 起 来 具有 一 定 自学 习 能 力 。 


2.3.3 链接 相关 度 估算 


主题 怜 虫 的 目的 在 于 疏 取 与 设 定 主题 相关 的 页 面 内 容 , 但 是 在 疏 取 过 程 中 需要 考虑 其 
工作 效率 。 在 主题 仆 虫 中 ,可 能 影响 爬行 效率 的 因素 在 于 两 个 方面 : 一 是 内 容 相关 度 的 计 
算 , 该 计算 涉及 内 容 的 处 理 , 如 Web 页 面 提取 、 中 文 词汇 的 切 分 ,向 量 空 间 的 构建 .相似 度 计 
算 等 ,需要 较 多 的 计算 量 ; 二 是 对 页 面 的 仆 取 ,页 面 的 候 取 涉及 网 络 连 接 的 建立 .URL 命令 
的 发 送 及 Web 页 面 内 容 的 获取 等 ,也 需要 较 多 的 计算 量 。 

如 果 能 控制 进入 候 行 任务 列表 的 URL, 使 得 进入 该 任务 列表 的 URL 大 都 是 与 主题 有 
一 定 相关 的 ,就 能 有 效 地 降低 后 续 对 内 容 处 理 所 需 要 的 计算 量 。 因 此 ,从 提高 怜 虫 系统 性 能 
的 角度 来 说 ,不 能 把 所 有 互联 网 页 面 下 载 之 后 再 去 筛选 ,而 需要 在 URL 识别 阶段 就 能 够 判 
断 某 个 URL 对 应 的 页 面 内 容 是 否 与 主题 相关 。 

在 这 个 阶段 ,由 于 这 时 候 URL 刚 被 解析 出 来 ,其 对 应 的 Web 页 面 并 没有 被 获取 ,因此 
是 无 法 从 内 容 上 进行 相关 度 的 分 析 。 一 些 可 以 被 利用 的 信息 及 它们 对 链接 相关 度 估算 的 价 
值 分 析 说 明 如 下 。 

(1) 超 链 接 的 锚 文本 , 即 一 个 超 链接 上 显示 的 文字 。 这 种 文本 信息 一 般 非 常 有 限 , 但 是 
锚 文 本 中 的 关键 词 在 反映 真实 内 容 方面 通常 具有 很 强 的 代表 性 。 其 缺点 就 是 , 锚 文 本 一 般 
很 短 ,经 过 词汇 提取 之 后 ,通常 需要 进行 一 定 的 词汇 语义 扩展 ,找到 更 多 可 能 与 主题 相关 的 
词汇 ,这 样 可 以 提升 与 已 定义 好 的 主题 的 链接 相关 度 计算 准确 性 。 

(2) 超 链接 周围 的 其 他 超 链 接 的 锚 文 本 ,也 就 是 某 个 超 链接 前 后 一 定 范围 区 域内 所 有 
锚 文本 所 构成 的 文本 信息 。 这 种 信息 在 进行 相关 度 估 算 时 也 具有 一 定 的 参考 价值 ,这 是 由 
于 Web 页 面 的 设计 者 为 了 增加 用 户 体验 度 ,通常 会 把 一 些 内 容 上 相似 或 相关 度 比较 高 的 超 
链接 放 在 一 起 ,把 这 种 现象 称 为 超 链接 的 主题 聚集 性 。 如 图 2-8 所 示 , 互 联网 IT 等 相关 的 
链接 被 组 织 在 一 起 。 可 以 用 周围 的 文字 来 扩展 某 个 超 链接 的 锚 文本 。 要 使 用 此 类 信息 ,就 
必须 对 HTML 结构 进行 一 定 分 析 . 如 都 是 同属 于 一 个 表格 栏 的 ,否则 就 不 是 很 容易 确定 超 
链接 的 计算 范围 。 
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图 2-8 超 链接 的 主题 聚集 性 


(3) 超 链接 结构 信息 。 对 于 疏 虫 系统 来 说 ,页 面 超 链 接 是 不 断 累 积 的 ,因此 在 怜 虫 工作 
过 程 中 ,对 于 某 个 页 面 P, 可 以 通过 已 经 候 行 的 页 面 中 提取 
出 来 的 指向 该 页 面 超 链接 来 进行 相关 度 的 估算 。 例如， 
图 2-9 中 ,从 页 面 1 开始 进行 宽度 优先 搜索 爬行 , 当 解析 出 2 
和 4 的 超 链 接 后 ,就 可 以 对 页 面 5 的 相关 度 进行 估算 了 。 而 
且 , 这 种 估算 会 随 着 爬行 的 页 面 越 多 而 越 准确 。 基 于 这 种 
链接 结构 的 一 般 假设 是 主题 相关 高 的 页 面 通常 也 会 比较 密 
集 地 链接 在 一 起 ,因此 就 需要 在 获取 新 的 页 面 之 后 对 所 有 
页 面 的 主题 相关 度 重新 评估 。 


2.3.4 内 容 相关 度 计算 


内 容 相关 度 计算 是 在 实际 上 已 经 获得 页 面 内容 之 后 ,计算 它 与 主题 的 相关 度 大 小 ,是 控 
制 主题 疏 虫 信息 效率 的 第 二 个 关口 。 要 进行 内 容 相 关 度 的 计算 ,需要 有 两 个 关键 的 环节 。 

(1) 页 面 解析 器 要 能 正确 地 把 页 面 的 正文 提取 出 来 。 由 于 一 个 Web 页 面 通常 包含 了 很 
多 的 导航 条 广告 等 内 容 和 超 链接 ,而 真正 页 面 所 要 表达 的 主题 内 容 并 不 会 占据 整个 页 面 , 因 
此 为 了 避免 由 于 无 关 词汇 对 后 续 内 容 相关 度 计算 造成 影响 ,也 就 要 求 在 这 个 阶段 正确 地 把 页 
面 的 正文 内 容 提 取出 来 。 所 采用 的 技术 在 第 3 章 的 Web 页 面 内 容 提取 部 分 进行 介绍 。 

(2) 对 提取 出 来 的 正文 内 容 进 行 主题 相关 度 的 计算 。 如 前 所 述 , 这 种 相关 度 计 算 与 了 
题 定义 时 所 采用 的 模型 有 关 。 

对 于 式 (2-4) 所 描述 的 向 量 空 间 模型 .可 以 采用 余弦 相似 度 的 计算 公式 : 





图 2-9 疏 虫 系统 中 超 链接 价值 





cosl = 一 一 -一 一 (2-6) 
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式 中 ,ai .bi 分 别 是 主题 向 量 和 正文 内 容 向 量 的 第 i 个 维度 的 权重 值 ; n 是 向 量 空间 维 数 。 
具体 的 一 些 关于 维度 的 选择 、 权 重 的 计算 在 后 续 章 节 中 将 会 深入 展开 介绍 。 

对 于 式 (2-5) 所 描述 的 概率 主题 模型 ,最 直接 的 方式 就 是 将 相关 度 用 条 件 概 率 PC(d| TT) 
来 衡量 ,其 中 4 表示 页 面 内 容 。 

上 述 的 余弦 相似 性 或 条 件 概 率 , 它 们 的 取 值 都 是 在 [0.1] 内 ,因此 用 户 在 设 定 相似 性 阔 
值 时 就 会 比较 方便 。 


2.4 动态 Web 页 面 获取 技术 


动态 页 面 是 相对 静态 页 面 而 言 的 ,静态 页 面 以 html 文件 的 形式 存在 于 Web 服务 器 的 
硬盘 上 ,其 内 容 、 最 终 的 显示 效果 是 事先 设计 好 的 ,在 环境 相同 的 终端 上 的 显示 效果 是 一 至 
的 ,并 且 这 些 内 容 . 显 示 效 果 等 由 且 仅 由 HTML、JS、CSS 等 语言 控制 。 

动态 页 面 的 主要 特征 如 下 。 

(1) 其 最 终 展示 的 内 容 是 根据 用 户 的 请 求 由 服务 器 临时 组 织 在 一 起 ,并 形成 HTML 页 
面 返回 给 用 户 。 这 种 组 织 方式 可 以 是 由 静态 的 模板 加 上 部 分 动态 内 容 , 也 可 以 全 部 是 根据 
请 求 与 数据 库 中 的 匹配 完全 动态 生成 。 目 前 主流 的 Web 开发 框架 MVC 和 MVP 就 是 一 种 
模板 方式 ,完全 动态 生成 的 则 更 多 见于 框架 网 页 或 作为 网 页 中 嵌入 的 内 容 页 面 。 

(2) 动态 页 面 的 交互 与 显示 效果 取决 于 发 起 页 面 请 求 的 用 户 端 ,这 是 由 于 动态 页 面 不 
仅 使 用 了 HTML/CSS/JS 这 3 种 Web 常用 语言 ,更 是 因为 其 后 台 采 用 了 高 级 程序 设计 语 
言 , 数 据 库 等 技术 ,使 得 页 面 的 内 容 、 交 互 及 显示 效果 能 够 根据 用 户 当 前 操作 ,以 及 历史 操作 
记录 而 动态 变化 。 

从 静态 页 面 与 动态 页 面 的 差别 可 以 看 出 ,获取 及 解析 静态 页 面相 对 简单 ,获取 动态 页 面 
则 可 能 会 因为 终端 ,用 户 及 操作 不 同 而 结果 不 同 。 简 单 使 用 传统 的 静态 页 面 采集 方法 很 可 
能 根本 采集 不 到 动态 信息 .或 者 采集 到 无 用 的 信息 。 采 集 动态 页 面 需要 分 析 动 态 页 面 生 成 
时 的 输入 输出 格式 和 内 容 , 然 后 在 怜 虫 代码 中 实现 这 些 输入 输出 信息 的 生成 与 组 装 。 同 时 
需要 能 够 模拟 一 些 必要 的 交互 式 动作 .如 表单 的 填写 与 提交 、 加 载 更 多 内 容 的 按钮 单 击 等 。 

当前 ,提供 动态 页 面 的 服务 端 主要 采用 ASP、JSP、PHP、CGI、WSGI 等 动态 执行 技术 。 
然而 随 着 技术 和 应 用 的 发 展 ,为 了 增强 搜索 引擎 的 友好 界面 ,需要 尽量 以 静态 页 面 内 容 存 储 
展示 。 伪 静态 页 面 是 以 HTML 静态 页 面 展现 出 来 .但 实际 上 是 用 ASP 之 类 的 动态 脚本 来 
处 理 的 。 为 了 达到 这 个 目的 , 伪 静 态 页 面 技术 通常 采用 IIS 的 404 错误 处 理 机 制 或 rewrite 
技术 来 实现 将 静态 的 URL 页 面 请 求 转换 成 内 部 的 动态 访问 ,再 将 结果 以 同样 URL 返回 给 
用 户 。 此 外 ,还 有 使 用 纯 JS 框架 结合 数据 库 的 动态 页 面 技 术 。 这 两 者 虽然 与 单纯 的 传统 的 
静态 /动态 页 面 不 完全 相同 .但 是 因 其 本 质 还 是 动态 页 面 , 因 此 后 文 的 动态 页 面 获取 技术 的 
基本 分 析 原 理 与 采集 思路 也 适用 于 这 两 者 。 


2.4.1 动态 页 面 的 分 类 


动态 页 面 可 以 按照 生成 页 面 所 需要 的 数据 的 传人 方式 进行 分 类 ,主要 有 URL 参数 输 
和 \ 动 态 脚本 交互 及 终端 特征 信息 三 大 类 。 
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1. 通过 URL 参数 输入 实现 动态 页 面 

通过 这 种 方式 实现 动态 页 面 的 典型 代表 是 各 大 论坛 ,这 些 论坛 的 内 容 组 织 方式 是 主题 ， 
而 非 用 户 ,因此 在 其 访问 地 址 中 经 常 可 以 看 到 包含 了 版 块 编号 .帖子 编号 ,帖子 分 页 页 面 等 
信息 ,页 面 内 容 则 根据 访问 者 请 求 的 URL 中 的 参数 动态 返回 。 例 如 , 某 论坛 A 帖子 URL 
地 址 如 下 : 





https://bbs. A. cn/bbs/tcon?new = 1&bid = 56&f = 3043214797530204112 


其 中 ,“?” 之 后 的 部 分 即 是 获取 当前 页 面 内 容 所 需要 的 参数 ,可 以 看 出 这 个 URL 中 的 
参数 有 new、bid,f 3 个 参数 ,具体 的 参数 及 其 取 值 的 含义 需要 根据 不 同 的 站 点 分 析 而 定 。 

伪 静 态 页 面 多 用 于 需要 进行 搜索 引擎 优化 (SEO) 的 站 点 ,部 分 门户 网 站 、 购 物 商城 等 均 
支持 带 参数 的 URL 和 伪 静 态 的 URL, 这 些 伪 静态 页 面 的 URL 本 质 上 可 以 理解 成 不 带 
“一 "的 参数 。 例 如 , 某 论坛 B 同一 个 帖子 的 伪 静 态 页 面 地 址 及 其 对 应 的 动态 页 面 地 址 
如 下 : 


http:// xxxx .com/htm_data/7/1607/1985527. html 
http:// *xxx .com/read. php?fid= 7&tid = 1985527&toread= 1 


其 中 , 伪 静 态 页 面 的 “htm_data” 后 面 的 *7” 及 “1985527” 分 别 与 动态 页 面 地 址 的 “fid= 
7” 和 “tid 二 1985527” 对 应 ,“1607” 为 发 帖 的 月 份 。 这 个 转换 过 程 是 在 服务 器 端 进行 实现 的 。 

2. 通过 动态 脚本 交互 实现 动态 页 面 

这 种 方式 实现 的 动态 页 面 主要 是 一 些 包 含有 AJAX 或 其 他 脚本 语言 的 页 面 (Java 
Applet 除外 ) ,如 邮箱 、 包 含 多 媒体 信息 的 HTML5 页 面 等 。 这 些 页 面 主要 的 特征 是 其 数据 
以 特定 形式 进行 展示 ,页 面 的 内 容 根据 用 户 请 求 动态 刷新 。 在 刷新 的 过 程 中 ,页 面 中 的 脚本 
被 执行 从 而 完成 内 容 请 求 的 提交 ,后 台 根 据 请 求 对 应 的 接口 不 同 ,返回 不 同 的 数据 。 其 返回 
数据 多 为 JSON 格式 或 HTML 内 容 , 也 可 以 是 以 Callback 封装 了 的 JSON 等 形式 。 

3, 使 用 终端 特征 信息 来 实现 动态 页 面 

利用 终端 特征 信息 实现 的 动态 页 面 , 它 的 生成 过 程 是 这 样 的 ,浏览 器 使 用 保存 在 本 地 的 
Cookie 文件 或 者 类 似 硬件 信息 等 本 地 终端 特征 信息 ,向 服务 器 端 请 求 特定 的 信息 内 容 , 并 
以 动态 页 面 的 形式 展现 给 用 户 。 

这 类 页 面 主要 应 用 在 需要 用 户 登 录 , 并 且 根 据 用 户 不 同 而 提供 不 同 的 内 容 服 务 的 场景 ， 
如 微 博 、 某 些 广告 网 站 等 。 许 多 在 线 广告 商都 利用 Cookie 来 实现 用 户 在 不 同 网 站 上 页 面 的 
“ 告 插入 。 


2.4.2 动态 页 面 的 获取 方法 


采集 动态 页 面 的 基本 思路 是 根据 页 面 动态 生成 的 输入 和 输出 限制 进行 交互 分 析 、 输 入 
模拟 、 输 出 数据 获取 与 数据 分 析 。 大 致 的 步骤 是 : 首先 需要 对 获取 页 面 的 请 求 内 容 或 者 本 
地 的 Cookies( 输 入 ) 进 行 分 析 , 找 到 生成 动态 页 面 所 依赖 的 请 求 接口 及 其 所 需要 的 数据 内 
容 / 格 式 , 然 后 使 用 程序 模拟 组 装 数 据 并 发 送 至 特定 接口 ,从 接口 获取 到 返回 的 数据 (JSON 
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或 HTML), 最 后 对 返回 的 JSON、 页 面 HTML 信息 进行 分 析 以 采集 目标 信息 。 

从 获取 动态 页 面 的 过 程 可 以 发 现 ,输入 模拟 是 其 关键 步骤 之 一 。 交 互 分 析 、 输 出 数据 的 
获取 与 分 析 等 过 程 可 以 方便 地 使 用 Python 脚本 语言 的 re、beautifulsoup、xml,json 等 函数 
库 对 数据 结构 进行 解析 与 数据 提取 。 而 输入 模拟 则 需要 考虑 到 后 台 服 务 平台 的 限制 ,如 为 
一 般 用 户 和 特定 用 户 提供 信息 是 否 有 差异 .为 手机 浏览 器 、PC 浏览 器 提供 的 内 容 是 否 有 差 
异 , 是 否 存在 需要 多 步 交 互 才 能 获取 到 最 终 的 信息 等 。 针 对 这 些 限 制 需要 采用 不 同 的 策略 
和 方法 进行 输入 模拟 ,才能 以 此 获得 目标 页 面 数据 。 输 入 模拟 主要 有 模拟 浏览 器 与 脚本 解 





析 执 行 两 大 类 方法 ,这 两 类 方法 的 比较 如 表 2-1 所 示 。 
表 2-1 两 种 输入 模拟 方式 的 比较 





模拟 浏览 器 


脚本 解析 执行 





可 用 的 Python 库 


requests( 使 用 header 数据 任意 模拟 ) 
qtwebkit( 模拟 webkit 内 核 浏览 器 ) 


pyv8(python 的 JS 解析 执行 引擎 ) 
PhantomJS( 内 笛 JS 引擎 的 无 header 
的 webkit 核 ) 





GET. POST .PUT、DELETE、HEAD 


GET. POST. PUT. DELETE. HEAD 














支持 方法 及 OPTIONS 及 OPTIONS 
是 否 支 持 Cookies 是 是 
适用 动态 页 面 类 型 | URL 参数 输入 .终端 特征 信息 动态 | 动态 脚本 交互 (最 优 
脚本 交互 
优点 允许 灵活 地 构造 输入 数据 并 发 送 “| 无 须 解析 请 求 地 址 .数据 结构 等 
i 天 要 通过 分 析 页 而 /JS 或 通过 网 结 探 | 上 应 好 js 六 家 性 并 不 完 攻 








针 抓 包 分 析 数 据 构造 和 请 求 接口 地 址 


2.4.3 模拟 浏览 器 的 实现 


模拟 浏览 器 有 3 种 主流 的 实现 方式 ,一 种 是 以 模拟 特定 浏览 器 的 header 信息 方式 实现 
对 浏览 器 的 模拟 ,一 种 是 使 用 浏览 器 内 核 ( 主 要 是 webkit) ,另外 还 可 以 直接 在 浏览 器 上 开 
发 组 件 (firefox/chrome) 以 实现 动态 页 面 的 采集 。 

模拟 Header 信息 在 Python 中 有 很 多 库 可 以 方便 地 使 用 ,常用 的 有 httplib/httplib2/ 
requests, 其 中 requests 相对 兼容 性 更 好 。 以 下 的 登录 样 例 , 使 用 requests 模拟 header、 获 取 
Cookies 及 使 用 获取 到 Cookies 继续 获得 页 面 ,并 使 用 beautifulsoup 进行 页 面 解析 : 


划 登 录 进程 
def log_in(session) : 
headers={ 
"Accept" :"text/html, application/xhtml + xml, application/xml; " \ 
"q=0.9, image/webp, * /* ;q=0.8", 
"Accept — Encoding" :"text/html", 
"Accept - Language" :"en— US,en;q=0.8,zh- CN;q=0.6,zh;q=0.4,zh— TW;q= 0.2", 
"Content - Type" : "application/x— www — form— urlencoded", 
"User — Agent" :"Mozilla/5.0 (X11; CrOS x86_64 6253. 0.0) AppleWebKit/537.36 " \ 
" (KHTML, like Gecko) Chrome/39.0.2151.4 Safari/537.36" 
! 井 组 装 Header 信息 
username = ' 测 试用 户 ' 
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username_encode = username. encode( 'gb2312') 
login info= { 'cktime': '3600°', 
'hideid': '0', 
'pwuser': username_encode, 
‘pwpwd’: xxxx , 
'forward': 'index. php', 
"jumpurl': ‘index. php', 
'step': '2'} 划 组 装 Login 信息 


Url = 'http:// xx*x*x .com/login. php' 划 登 录 页 面 
log_in result = session. post(url, data= login info, headers = headers) 
_cookies = log_in result. cookies 划 获 取 Cookies 


r= requests. get( 'http:// *x*xx .com/u. php', cookies = _cookies) 

soup = BeautifulSoup(r. content, "html.parser", from encoding = "gb18030") 
sys. stdout = io. TextIOWrapper( sys. stdout. buffer, encoding = 'gb18030') 
return session 


此 过 程 中 可 以 看 到 ,使 用 POST 方法 提交 Header 和 Login 信息 进行 登录 ,并 获取 
Cookies ,利用 Cookies 作为 动态 参量 获得 页 面 。 

模拟 浏览 器 一 般 可 以 使 用 PythonWebKit、PyWebkitGtk、PyWebkitQt4、Ghost. py 等 
第 三 方 python 库 实 现 ,其 中 PythonWebKit 相对 后 两 种 webkit 模拟 来 说 , 它 对 HTML5 的 
支持 更 好 ,但 是 Ghost. py 的 使 用 更 加 直接 .简单 。Ghost. py 是 用 python 写 的 webkit 的 
Web 客户 端 (https://github. com/jeanphix/Ghost. py)。 以 下 是 使 用 Ghost. py 进行 模拟 
的 样 例 。 

在 调用 之 前 , 先 安 装 , 即 : 


pip install pyside 
pip install ghost. py -pre 


from ghost import Ghost 

ghost = Ghost() 

With ghost. start( ) as session: 
page, extra_resources = session. open("http://jeanphix. me") 
assert page. http_status == 200 and 'jeanphix' in page.content 


总 之 ,当前 在 模拟 浏览 器 进行 页 面 采集 方面 已 经 有 比较 多 的 方法 和 库 可 以 使 用 ,特别 是 
在 python 中 ,操作 较 简 便 。 但 是 采集 之 前 需要 注意 的 是 要 能 够 准确 地 了 解 仆 行 Web 页 面 
的 需求 ,同时 能 够 把 握 和 分 析 目 标 数据 从 请 求 到 输出 的 生命 周期 ,在 这 样 的 基础 上 .模拟 浏 
览 器 能 够 更 接近 人 工 浏 览 的 方式 与 服务 器 进行 交互 ,并 进行 目标 数据 的 采集 。 


2.4.4 基于 脚本 解析 的 实现 


从 本 质 上 讲 , 脚 本 解析 也 是 一 种 模拟 浏览 器 的 行为 ,只 是 这 种 方法 更 着 重 于 对 页 面 js 
等 脚本 功能 的 解析 与 (模拟 执行 ,以 期 能 够 通过 与 真实 的 浏览 动作 相同 的 方式 执行 页 面 的 
动态 脚本 ,并 获取 其 返回 信息 。 当 页 面 中 JS 功能 较 复杂 或 者 AJAX 交互 较 多 时 ,采用 动态 
脚本 解析 方法 则 更 为 现实 。 
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常见 的 python 脚本 解析 执行 库 有 pyv8 ScriptControl 及 SpiderMonkey,pyv8 这 个 外 
部 函数 库 是 现在 比较 活跃 的 库 , 并 且 相 对 ScriptControl 仅 能 够 运行 在 Windows 平台 上 ， 
pyv8 能 够 实现 跨 Window、* nux 平台 运行 ; 除 使 用 python 的 JavaScript 解析 引擎 外 ,还 可 
以 通过 phamtonJs 之 类 的 第 三 方 JS 解析 工具 进行 js 函数 的 调用 与 执行 。 

以 下 是 简单 的 PyV8 的 执行 js 函数 的 样 例 : 





import PyV8 
def js(self): 
ctxt = PYV8.JSContext() 
ctxt.enter() 
func = ctxt.eval(' "此 处 可 以 插入 页 面 的 js 函数 '"') 
print(func()) 


2.5 微 博信 息 内 容 获取 技术 


目前 常见 的 SNS 平台 的 信息 采集 途径 主要 可 以 分 为 如 下 3 种 : 通过 平台 提供 的 开放 
API 获取 数据 、 通 过 模拟 用 户 行为 进行 页 面 分 析 与 数据 采集 、 通 过 模拟 移动 终端 客户 端 进行 

通过 平台 开放 API 获取 数据 的 方式 与 后 两 者 的 差别 在 于 , 它 需 要 注册 平台 开发 者 身份 
或 签订 一 定 的 协议 ,在 获取 数据 前 使 用 平台 约定 的 方式 进行 身份 认证 ,如 新 浪 微 博 开放 平台 
使 用 的 认证 方式 为 OAuth。 后 两 种 本 质 上 都 是 模拟 终端 或 者 用 户 的 方式 ,主要 思路 是 通过 
平台 公开 的 页 面 编码 内 容 进行 请 求 命令 的 构造 ,并 对 返回 的 数据 进行 分 析 。 下 面 分 别 介绍 
这 三 种 方式 的 基本 原理 和 实现 方法 。 

1. 通过 开放 的 API 获取 数据 

微 博 开放 平台 (Chttp://open. weibo. com/development/datacenter) 提 供 了 当前 可 用 的 
详细 的 接口 说 明 (http://open. weibo. com/wiki/%E5%95%86%E4% B8%9A%E6%95% 
B0%E6%8D%AEAPD ,在 这 些 接口 中 ,采集 数据 需要 用 到 的 主要 接口 有 以 下 几 个 。 

(1) statuses/repost_timeline/all: 其 功能 是 返回 一 条 微 博 的 全 部 转发 微 博 列 表 。 

(2) place/user_timeline/other; 其 功能 是 获取 某 个 用 户 的 位 置 动态 。 

(3) comments/show/all: 其 功能 是 返回 一 条 微 博 的 全 部 评论 列表 。 

其 API 中 搜索 最 近 数 据 、 检 索 历 史 全 量 数据 、 微 博 内 容 数 据 三 者 属于 商业 数据 接口 , 需 
要 收费 。 除 提供 数据 接口 服务 外 , 微 博 开 放 平 台 还 提供 数据 中 心服 务 ,如 图 2-10 所 示 , 这 些 
服务 包括 粉丝 分 析 、 内 容 分 析 、 互 动 分 析 、 行 业 趋 势 分 析 等 数据 分 析 处 理 功 能 。 

因为 采集 数据 存在 收费 的 可 能 .并 且 会 有 一 定 的 采集 范围 .采集 间隔 等 限制 ,进行 微 博 
数据 采集 之 前 需要 采集 者 先 明确 自身 需求 。 之 后 .可 以 按照 图 2-11 所 示 的 流程 进行 数据 采 
集 操作 。 在 该 流程 中 ,首先 通过 申请 到 的 ID 和 Secret Key, 通 过 开放 平台 的 认证 接口 进行 
OAuth 认证 。 认 证 通过 后 . 先 使 用 免费 的 用 户 列表 接口 获取 用 户 数据 ,通过 活跃 度 等 目标 
选 定 目标 用 户 以 剔除 僵尸 粉 和 专门 营销 号 等 垃圾 信息 。 使 用 前 序 步骤 中 的 数据 ,向 平台 发 
起 数据 请 求 , 在 平台 准备 好 数据 后 客户 端 再 进行 数据 的 获取 。 但 是 要 注意 的 是 ,为 了 缓解 服 
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图 2-10 微 博 开放 平台 数据 中 心 


务 器 压力 ,平台 推送 数据 每 10 分 钟 会 断 开 一 次 连接 ,数据 采集 客户 端 需要 使 用 合适 的 连接 


方式 与 服务 器 进行 连接 。 
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图 2-11 通过 新 浪 开放 API 获取 微 博 数据 
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2. 通过 模拟 用 户 行为 进行 页 面 分 析 与 数据 采集 

基于 模拟 用 户 浏 览 行为 进行 微 博 页 面 采集 ,其 本 质 是 获取 到 微 博 平台 返回 的 HTML 
编码 内 容 后 ,对 页 面 HTML 结构 进行 分 析 , 将 其 中 的 信息 规格 化 。 采 用 正则 表达 式 、 树 形 
结构 特征 匹配 等 方法 提取 页 面 中 所 需要 的 数据 ,在 具体 实现 上 , 则 可 以 采用 lxml、 
BeautifulSoup 等 HTML 解析 工具 解析 获取 指定 位 置 的 数据 。 同 时 ,可 以 根据 页 面 内 的 
超 链接 关系 ,进行 更 多 页 面 的 息 取 与 采集 。 从 这 点 看 ,与 传统 仆 虫 技术 的 实现 方法 就 很 

一 个 完整 的 流程 如 图 2-12 所 示 。 模 拟 用 户 登 录 需 要 使 用 weibo. cn, 可 以 免除 验证 码 ， 
当然 也 可 以 通过 显示 验证 码 由 人 工 /算法 识别 来 实现 验证 码 的 解除 。 登 录 成 功 后 的 
Cookies 是 本 采集 方法 后 续 操 作 的 重要 基础 。 


客户 端 微 博 服务 端 


1 1. 模 拟 用 户 登 录 请 习 1 
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图 2-12 通过 疏 取 HTML 的 方式 采集 微 博信 息 


采集 数据 时 可 以 从 当前 用 户 的 主页 或 关注 的 人 入 手 ,获取 到 第 一 个 页 面 后 ,通过 内 容 解 
析 , 可 以 将 页 面 内 容 分 为 帖子 内 容 ( 人 信息、 文字、 图 片 )、 用 户 关系 与 链接 (关注 、 被 关注 、 超 链 
接 ) 两 大 类 ,其 中 帖子 内 容 还 可 以 细 分 成 包含 Tag\ 不 包 仿 Tag、 图片. 文字、 超 链接 等 。 基 于 
获取 到 的 超 链接 可 以 进一步 息 取 ,获得 更 多 信息 。 

本 方法 的 缺点 是 息 虫 线程 容易 受到 限制 ,但 是 可 以 通过 自动 切换 代理 服务 器 方式 
解决 。 

3. 通过 模拟 移动 终端 客户 端 进行 数据 采集 

本 采集 方法 的 前 提 和 前 一 种 方式 相同 ,是 通过 模拟 用 户 登录 ,再 调用 新 浪 提 供给 第 三 方 
客户 端 /移动 网 页 访问 的 API, 可 获取 用 户 关注 的 用 户 ( 或 有 权限 的 ) 的 数据 信息 ,获取 到 的 
数据 本 身 就 是 结构 化 的 数据 。 

在 实际 使 用 中 ,可 以 通过 3 种 方法 综合 使 用 .发 挥 优 势 .解决 各 自 存在 的 一 些 问题 。 当 
然 , 由 于 客户 端 登 录 在 新 浪 的 管理 /技术 策略 上 还 存在 一 些 不 确定 的 因素 ,如 果 有 可 能 通过 
与 新 浪 公 开 合 作 进 行 数据 采集 分 析 应 该 是 最 佳 的 方案 。 
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2.6 ”DeepWeb 数据 获取 技术 
2.6.1 相关 概念 


DeepWeb 这 一 概念 最 初 由 Dr. Jill Ellsworth 于 1994 年 提出 。DeepWeb 是 Web 中 那 
些 未 被 搜索 引擎 收录 的 页 面 或 站 点 ,也 可 称 为 Invisible Web、Hidden Web。 与 其 相对 的 是 
Surface Web, 指 的 是 静态 页 面 。 

随 着 互联 网 技术 和 应 用 的 发 展 ,当前 互联 网 与 早期 的 互联 网 已 经 呈现 了 一 些 差异 ,尤其 
是 适应 搜索 引擎 和 移动 终端 的 快速 增长 这 两 个 变化 导致 了 当前 DeepWeb 与 其 诞生 之 时 的 
定义 或 者 表现 稍 有 差异 。 由 于 搜索 引擎 在 技术 和 业务 推广 之 间 起 到 了 有 力 的 推动 ,许多 网 
站 都 希望 其 网 页 能 被 搜索 引擎 收录 。 而 相对 于 动态 页 面 来 说 ,静态 页 面 由 于 不 需要 处 理 动 
态 脚 本 ,更 易于 被 搜索 引擎 处 理 并 收录 。 因 此 ,网 站 就 希望 用 静态 页 面 来 代替 动态 页 面 ,但 
是 这 种 途径 显然 不 可 行 ,因为 有 很 多 的 数据 仍 需 要 保存 在 数据 库 系统 中 ,并 通过 动态 网 页 来 
访问 。 为 了 平衡 这 两 方面 的 矛盾 ,就 出 现 了 伪 静 态 技术 。 通 过 该 技术 ,展现 给 用 户 或 搜索 引 
擎 的 是 一 个 静态 的 HTML 文件 ,但 是 访问 该 HTML 文件 时 由 Web 站 点 进行 后 台 的 动态 
化 访问 。 通 过 伪 静 态 技 术 访 问 的 动态 网 页 ,能 够 被 搜索 引擎 收录 ,因此 就 不 能 归 届 为 
DeepWeb 了 。 

对 于 互联 网 大 数据 应 用 而 言 ,并 不 关注 Web 页 面 是 DeepWeb 还 是 SurfaceWeb ,而 更 
关注 的 是 动态 页 面 所 需要 访问 的 数据 ,这 些 数据 通常 保存 于 数据 库 服 务 器 (或 专门 的 文件 系 
统 ) 中 ,是 一 种 重要 的 大 数据 源 。 很 多 预订 网 站 .电子 商务 销售 网 站 的 动态 页 面 所 访问 的 数 
据 都 是 属于 这 种 类 型 。 

数据 库 中 的 数据 由 于 用 户 .需求 相对 明确 ,由 专人 生产 和 维护 信息 ,并 且 难 以 被 复制 采 
集 , 因 此 相对 SurfaceWeb 中 的 数据 来 说 其 数据 质量 往往 比较 高 。 但 是 由 于 其 背后 的 数据 
库 由 不 同 的 组 织 或 个 人 开发 维护 ,数据 库 的 结构 和 特性 千差万别 ,不 同 数据 之 间 的 关联 也 是 
错综复杂 ,与 行业 的 业务 流程 息息相关 ,因此 也 难以 直接 使 用 数据 库 技 术 管理 和 查询 这 些 数 
据 。 进 行 互联 网 大 数据 获取 时 ,无 法 忽视 这 个 庞大 、 高 质量 的 数据 源 。 

与 一 般 的 动态 网 页 稍 有 区 别 的 是 .DeepWeb 的 页 面 除了 内 容 动 态 生 成 之 外 ,往往 还 要 
有 特定 的 业务 过 程 或 者 状态 机 进行 触发 ,如 成 功 登 录 、 关 键 字 组 合 等 ,因此 , 相 较 普通 的 动态 
网 页 ,在 进行 DeepWeb 的 数据 采集 时 还 需要 考虑 到 数据 产生 的 过 程 、 业 务 流程 限制 及 数据 


语义 。 
2.6.2 DeepWeb 数据 获取 方法 


DeepWeb 数据 库 的 获取 方法 中 的 重点 是 通过 页 面 表单 来 实现 与 后 台 的 数据 交互 ,而 表 
单数 据 处 理 可 以 使 用 图 2-13 来 总 结 表示 ,主要 分 为 3 个 功能 步骤 : 表单 搜寻 、 表 单 处 理 ( 包 
括 分 析 ,填写 与 提交 ) 与 表单 结果 处 理 。 总 体 流程 从 左 到 右 执行 ,而 在 每 个 环节 ,又 有 内 部 的 
处 理 流程 。 

前 面 已 经 阐述 了 DeepWeb 与 一 般 动 态 网 页 的 最 大 区 别 在 于 其 页 面 数据 的 产生 与 业务 
流程 的 紧密 相关 ,而 互联 网 上 业务 流程 是 用 户 与 站 点 通过 各 种 表单 进行 交互 的 结果 。 在 
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领域 本 体 知识 库 





图 2-13 DeepWeb 数据 采集 


DeepWeb 数据 采集 过 程 中 通过 这 样 的 交互 获取 到 隐藏 在 后 台数 据 库 中 的 有 效 信息 资源 。 
所 需 的 具体 模块 主要 包括 待 采 集 领域 的 本 体 知识 库 模块 、 表 单 翁 取 模 块 、 表 单 处 理 模 块 及 结 
果 分 析 模 块 。 这 些 模块 之 间 以 待 采 集 领域 的 本 体 知 识 作为 采集 的 知识 基础 ,通过 表单 交互 
的 方式 深入 挖掘 领域 的 数据 ,并 更 新 知识 ,存储 数据 到 领域 本 体 知识 库 。 

1. 构建 待 采集 领域 的 本 体 知识 

领域 本 体 主要 包括 5 个 基本 的 建 模 元 语 (Modeling Primitives) : 类 ,关系 ,函数 ,公理 和 
实例 。 其 中 类 也 可 以 理解 为 概念 的 集合 ,关系 则 是 领域 之 中 各 概念 之 间 的 关联 关系 ,基本 的 
关系 有 kind-of .part-of ,instance-of 和 attribute-of 4 种 ,函数 可 以 视 为 关系 中 的 特殊 一 种 ， 
函数 也 可 以 看 作 流程 的 一 种 固化 表达 ,公理 是 领域 中 公认 的 真理 ,实例 则 是 对 象 。 

以 图 书 领域 为 例 ,可 以 进行 简单 的 对 应 起 来 一 些 基 本 概念 及 其 之 间 的 关系 ,如 存在 图 书 
分 类 、 作 者 、 编 者、 图 书 名 称 、ISBN、 出 版 社 、 出 版 时 间 、 版 次 、 页 数 、 开 本 、 印 次 ,包装 、 纸 质 、 从 
书 、 摘 要 、 内 容 简 介 , 目 录 等 基本 概念 ,在 机 票 预 订 领 域 则 这 些 本 体 范畴 又 不 同 。 因 此 在 采集 
之 前 对 领域 及 其 中 的 本 体 需 要 有 基本 的 概念 ,并 且 根 据 本 体 的 建 模 结果 进行 知识 库 构建 。 

对 于 概念 之 间 的 关系 及 包含 流程 的 函数 需要 在 厘清 本 体 概念 之 后 进行 模型 构建 ,在 本 
章节 中 主要 包括 字段 之 间 的 关系 ,字段 标签 与 字段 之 间 的 关系 .字段 填充 的 限制 与 规则 , 表 
单 填 写 的 顺序 规则 等 ,甚至 还 包括 某 些 字段 是 如 何 通过 其 他 字段 计算 得 来 的 函数 关系 。 

2. 通过 表单 仆 取 模块 获得 表单 

本 体 知识 库 的 构建 描述 了 大 量 的 概念 和 事实 及 它们 的 关系 ,但 同时 也 需要 了 解 领 域内 
的 常见 站 点 及 这 些 站 点 的 表单 内 容 , 因 而 在 前 序 步 又 中 已 经 人 工 采 集 分 析 过 的 URL 可 以 
作为 本 步 又 的 输入 之 一 , 放 入 URL 集合 之 中 。 

通过 疏 虫 采集 URL 集合 中 的 页 面 ,可 以 得 到 表单 页 面 的 集合 ,同时 也 可 以 通过 URL 
进一步 疏 取 其 他 未 被 收集 进来 的 表单 。 在 URL 集合 变 成 表单 集合 后 ,首先 需要 做 的 是 表 
单 的 清理 与 过 滤 , 如 同 大 数据 分 析 的 原始 数据 一 样 , 未 被 清理 的 表单 存在 诸多 问题 ,如 采集 
到 的 表单 中 会 存在 蜜 饶 , 因 为 未 登录 或 登录 失败 导致 的 表单 实际 为 重复 的 登录 表单 等 。 

在 清理 过 滤 这 一 步骤 中 .可 以 使 用 启发 式 规则 去 除 不 符合 要 求 的 表单 ,一 些 可 用 的 规则 
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如 下 。 
(1) 给 定 一 个 阔 值 区 间 ( 可 以 根据 领域 中 常见 的 典型 表单 计算 得 到 ) ,如果 需要 填写 的 
字段 个 数 超出 这 个 区 间 范 围 的 表单 就 忽略 或 剪除 ,以 免 采 集 到 的 表单 并 非 期 望 的 表单 ,如 一 








些 调 查 问卷 或 登录 .注册 表单 等 。 

(2) 对 于 给 定 的 表单 ,如 果 其 中 含有 特定 类 型 的 元 素 , 如 密码 框 `Textarea( 可 以 排除 问 
卷 ) 则 忽略 该 表单 。 

(3) 将 表单 输入 项 中 的 每 个 标签 与 本 体 知 识 库 进行 比较 ,如 果 不 匹配 的 比例 较 大 ,一 般 
也 不 是 该 领域 的 表单 页 面 。 


对 于 符合 规则 (1) 的 表单 根据 规则 还 可 以 进行 剪除 操作 ,主要 目的 是 剪除 其 中 的 蜜 饶 、 
非 必需 表单 项 等 ,而 剪除 操作 一 般 需 要 根据 数据 采集 任务 的 目标 及 对 方 站 点 的 领域 属性 等 
确定 ,使 得 后 续 表 单 解析 与 填写 的 过 程 能 够 聚焦 在 数据 获取 的 主流 程 之 中 ,不 被 引入 蜜 铅 或 
者 更 为 复杂 的 分 支流 程 。 

3. 表单 处 理 

表单 处 理 模块 的 技术 要 点 有 两 个 ,一 个 能 够 识别 表单 字段 内 容 , 另 外 一 个 是 能 够 匹配 的 
填写 表单 的 字段 ,也 即 能 够 与 领域 本 体 知识 库 中 对 象 属性 之 间 的 映射 关系 产生 匹配 。 

当前 的 站 点 为 了 便于 用 户 使 用 ,在 界面 .表单 元 素 等 交互 上 均 采取 了 简洁 、 易 懂 的 模式 ， 
同时 ,大 部 分 表单 会 有 对 应 的 文本 标签 ,简要 的 说 明 等 信息 与 表单 填写 项 目 进行 匹配 ,同时 
可 能 还 会 有 键盘 顺序 自动 化 等 人 性 化 的 提示 、 帮 助 信息 。 因 而 表单 识别 可 以 在 领域 本 体 知 
识 库 的 参与 下 进行 。 疏 虫 对 表单 项 的 标签 .HTML 编码 中 的 id name 进行 模式 识别 ,一 旦 
发 现 与 库 中 的 概念 相同 或 者 接近 的 , 则 可 以 先 与 概念 关联 起 来 。 具 体 的 识别 过 程 可 以 使 用 
启发 式 规则 ,规则 依赖 于 当前 中 英文 的 Web 表单 。 按 照 从 上 往 下 、 从 左 往 右 的 阅读 习惯 ,可 
以 在 表单 字段 域 的 左边 或 者 上 面 获得 提示 信息 和 字段 标签 , 当然 也 会 存在 字段 标签 即 是 字 
段 域 的 默认 内 容 的 情况 。 

表单 内 容 填写 则 是 在 前 述 的 关联 的 基础 上 进行 的 。 在 填写 的 时 候 , 可 以 按照 字段 与 领 
域 本 体 知识 库 中 概念 相似 程度 进行 匹配 ,将 本 体 知识 库 中 的 属性 值 作为 表 项 值 。 由 于 表单 
项 一 般 会 不 止 一 个 ,因此 在 填写 表单 时 应 当 考 虑 到 ,优先 选择 哪个 表单 项 进行 填写 。 这 里 需 
要 考虑 到 领域 中 知识 的 分 类 体系 ,主要 的 目的 是 要 确保 提交 的 表单 查询 次 数 尽量 少 ,并 且 查 
询 到 数据 记录 之 间 避 免 重复 。 例 如 ,对 于 图 书 领域 ,属性 有 出 版 社 .ISBN、 著 者 、 出 版 日 期 
等 ,显然 在 这 些 属性 中 ,出 版 社 是 最 有 效 的 属性 ,通过 知识 库 中 保存 的 有 效 的 出 版 社 列表 逐 
个 提交 ,来 达到 有 效 查询 的 目的 。 

4. 结果 处 理 

HTTP 的 返回 内 容 则 需要 进行 格式 .结构 .关键 字 校 验 , 如 果 当 前 提交 的 表单 预期 结果 
是 一 个 包含 搜索 结果 的 页 面 , 那 么 包含 有 登录 信息 的 表单 页 面 , 或 者 不 包含 有 预期 的 结果 关 
键 字 的 页 面 , 或 者 包含 无 结果 等 信息 的 页 面 均 可 认为 是 当前 提交 表单 错误 的 表现 。 

如 当前 表单 提交 的 期 望 结 果 是 JSON 或 XML. 那么 则 其 返回 数据 的 格式 与 内 容 均 需要 
进行 校 验 , 以 免 采 集 到 的 是 无 效 的 信息 。 对 于 待 采 集 目 标 需要 通过 较为 复杂 的 多 步 流 程 才 
能 获取 的 情况 ,每 一 步骤 中 与 业务 相关 知识 进行 比较 分 析 , 以 兔 因 某 步 又 表单 错误 ,导致 后 
续 采 集 失 败 或 获取 的 数据 并 非 期 望 值 。 对 返回 的 结果 进行 自动 提取 时 .需要 将 每 个 记录 的 
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内 容 与 字段 对 应 起 来 。 可 能 存在 以 下 的 处 理 情 况 。 

(1) 记录 集 的 样式 判断 ,记录 集 可 以 按照 横向 、 纵 向 来 组 织 , 需 要 分 析 字 段 名 称 是 显示 
在 第 一 行 或 第 一 列 。 

(2) 结果 集中 的 字段 名 称 与 表单 项 可 能 不 完全 一 致 ,也 可 能 出 现 新 的 字段 名 称 ,需要 对 
字段 标签 进行 再 分 析 。 


2.7 反 谎 虫 技术 与 反 反 爬虫 技术 


随 着 互联 网 的 高 速 发 展 ,提供 公众 服务 的 站 点 越 来 越 多 ,能 够 被 公开 访问 到 Web 页 面 
倍速 增加 ,这 些 页 面 中 所 包含 的 信息 是 普通 搜索 引擎 和 其 他 疏 虫 采集 的 目标 。 由 此 ,互联 网 
上 采集 数据 的 怜 虫 越 来 越 广泛 , 对 于 某 个 Web 站 点 来 说 ,每 天 可 能 经 常会 有 不 同 的 候 虫 
光顾 。 

通常 情况 下 , Web 站 点 会 在 其 根 目录 下 放置 一 个 Robots. txt 文件 ,以 提醒 仆 虫 遵守 
Robots 协议 (Robots Exclusion Protocol) 的 约束 。 例 如 ,哪些 页 面 可 以 抓 取 ,哪些 页 面 不 能 
抓 取 。 然 而 并 非 所 有 的 采集 者 都 能 够 遵循 该 协议 。 其 原因 可 能 是 候 虫 程序 设计 得 很 糕 ， 
也 可 能 这 种 爬 取 本 身 就 是 恶意 的 ,统称 此 类 爬虫 为 “不 友好 ”的 疏 虫 。 不 友好 的 疏 虫 往往 会 
导致 Web 站 点 服务 压力 陡 增 ,严重 时 导致 类 似 的 DDoS 攻击 。 因 此 ,对 于 Web 站 点 的 管理 
者 往往 需要 提防 不 友好 扑 虫 所 导致 的 各 种 问题 。 

从 目前 常见 的 站 点 对 待 候 虫 的 策略 来 看 ,一 般 有 两 种 ,一 种 是 顺从 (如 允许 搜索 引擎 、 开 
放 API 接口 等 ), 另 外 一 种 则 是 使 用 各 种 技术 手段 进行 反 息 虫 。 然 而 有 趣 的 是 , 随 着 反 息 虫 
技术 的 升级 , 反 反 疏 虫 技术 也 在 不 断 进步 ,双方 的 博弈 每 时 每 刻 都 在 互联 网 上 上 演 , 反 疏 虫 
与 反 反扑 虫 技术 就 好 像 是 安全 领域 的 破解 与 反 破解 一 样 ,相互 矛盾 ,相互 克制 ,同时 也 相互 


2.7.1 反 息 虫 技 术 


面 对 不 友好 的 息 虫 时 ,站 点 需要 主动 拿 起 盾牌 ,进行 反 候 虫 。 反 和 仆 虫 主要 的 工作 包括 两 
个 方面 , 即 不 友好 疏 虫 的 识别 与 和 朴 虫 的 阻止 。 识 别 怜 虫 主要 是 识别 不 友好 爬 取 行为 与 正常 
浏览 行为 的 差异 。 而 阻止 怜 虫 则 是 阻止 恶意 的 聆 取 , 同 时 能 够 在 识别 错误 时 为 正常 用 户 提 
供 一 个 放行 的 通道 。 

友好 的 爬虫 通常 是 遵守 Robots 协议 的 .并且 扑 取 频率 和 策略 比较 合理 ,给 站 点 带 来 的 
资源 压力 和 安全 风险 较 小 ,而 不 友好 疏 虫 则 会 在 其 朴 取 的 行为 上 存在 不 遵守 协议 及 疏 取 频 
率 高 等 问题 ,这 两 个 问题 会 对 站 点 服务 造成 比较 恶劣 的 影响 。 不 遵守 协议 的 聆 虫 往往 意味 
着 不 读 取 Robots. txt ,无 视 协议 内 容 .对 站 点 内 的 敏感 信息 肆意 搜 取 ; 这 些 不 遵守 协议 的 候 
虫 同样 可 能 会 存在 全 站 怜 取 的 行为 , 除 敏感 信息 泄露 外 ,还 会 导致 站 点 的 服务 器 压力 增加 ， 
如 果 是 使 用 动态 网 页 的 站 点 , 则 会 产生 大 量 的 服务 器 资源 消耗 。 更 有 甚 者 ,还 有 的 怜 虫 会 伪 
装 成 用 户 或 利用 漏洞 获取 站 点 内 的 非 公开 信息 , 带 来 的 安全 隐患 远 甚 于 对 资源 的 消耗 。 

与 友好 疏 虫 的 合理 疏 取 间隔 设置 不 同 ,不 友好 的 和 朴 虫 会 通过 较 高 的 并 发 ,以 期 在 短 时 间 
内 获取 到 更 多 的 内 容 , 但 是 这 样 的 行为 不 仅 会 导致 服务 器 负荷 增加 ,更 容易 导致 正常 用 户 的 
体验 受到 影响 ,严重 的 情况 下 ,可 以 认为 站 点 受到 了 DDoS 攻击 。 不 过 这 样 的 疏 虫 往往 是 技 
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术 能 力 较 差 导致 的 ,毕竟 数据 采集 的 目标 是 采集 数据 而 非 攻击 对 方 服务 器 , 杀 鸡 取 卵 的 事情 
不 是 本 意 。 

正常 情况 下 ,用户 通过 浏览 器 与 服务 器 进行 HTTP 访问 的 过 程 中 ,用 户 访问 站 点 的 行 
为 从 发 送 Request 请 求 开始 .到 获取 到 服务 器 返回 的 Respone 结束 。 一 个 完整 的 HTTP 
Request 请 求 包括 Request Line 和 HTTP Headers ,前 者 包括 请 求 的 类 型 .目标 地 址 与 协议 
类 型 ,后 者 则 包含 一 系列 客户 端的 信息 ,可 以 看 作 浏 览 器 与 服务 器 之 间 交 互 的 头 数据 
(Header) 和 桥梁 。 

一 个 Request Line 结构 的 示例 如 下 : 























GET /bigdata/20160700/ HTTP/1.1 


而 HTTP Request 的 Headers 可 以 包含 很 丰富 的 信息 ,通常 包括 以 下 几 种 。 

(1) Host( 访 问 请 求 的 目标 主机 )。 

(2) User-Agent( 浏 览 器 名 ,版 本 号 .操作 系统 名 、 版 本 号 及 默认 语言 ) 。 

(3) AcceptLanguage( 用 户 的 默认 语言 ,如 果 有 多 个 则 第 一 个 为 首选 语言 ,其 余 语言 以 
0~1 的 q 值 表示 喜好 程度 ) 。 

(4) AcceptrEncoding( 对 数据 压缩 的 支持 .一 般 包括 gzip .deflate) 。 

(5) Hf-Modified-Since( 仅 在 本 地 缓存 过 的 页 面 有 此 选项 ,表示 最 后 文件 的 修改 日 期 ) 。 

(6) Cookie( 记 录 Cookies 信息 ,包括 session id 及 站 点 自 定义 的 各 类 信息 )。 

(7) Referer( 访 问 的 来 源 地 址 ,如 从 搜索 引擎 访问 的 , 则 refer 是 搜索 引擎 的 某 个 检索 页 面 )。 

(8) Authorization( 对 于 登录 等 认证 请 求 动作 ,一 般 包含 有 Authorization 字段 ) 。 

下 面 是 一 个 在 python 中 使 用 requests 库 构 建 、 发 送 HTTP 请 求 的 示例 。 


import requests 
headers={ 
"Host":"net. tutsplus. com", 
"Accept" :"text/html, application/xhtml + xml, application/xml; " \ 
"q=0.9, image/webp, * /* ;q=0.8", 
"Accept - Encoding" : "text/html"， 
"Accept - Language" :"en— US,en;q=0.8,zh— CN;q=0.6,zh;q= 0.4,zh- ™W;q= 0.2", 
"Keep — Alive" : "300", 
"Connection": "keep— alive", 
"Content - TYpe" : "application/x — www — form— urlencoded", 
"User — Agent" :"Mozilla/5.0 (X11; CrOS x86_64 6253.0.0) AppleWebKit/537.36 " \ 
" (KHTML, like Gecko) Chrome/39.0.2151.4 Safari/537.36", 
"Pragma": "no 一 cache", 
"Cache - Control": "no - cache”", 
"Referer" : "http://localhost/test. php" 


} 

proxies={ 
'http': 'http://127.0.0.1:8087', 
'https': 'http://127.0.0.1:8087', 
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worker_session = requests. Session() 


r= worker_session. get (url, proxies = proxies, cookies = _cookies, verify = False, stream= 
True, headers = headers, timeout = 5000) 


其 中 的 headers 为 HTTP 请 求 的 头 , 在 request 的 session 中 被 送 给 目标 URL, 同 时 发 
送 的 还 包括 cookies。requests 还 支持 proxies( 代 理 )、stream (数据 流 方式 )、timeout( 超 时 
时 间 ) ,verify( 认 证 ) 等 参数 。 

为 了 识别 不 友好 疏 虫 ,需要 先 了 解 怜 虫 与 正常 用 户 行为 的 差别 ,然后 再 根据 怜 虫 特征 的 
异常 值 来 检测 。 在 请 求 过 程 中 ,正常 用 户 与 疏 虫 行为 相 比 主要 的 区 别 如 表 2-2 所 示 。 

表 2-2 正常 用 户 与 息 虫 行为 的 比较 


正常 用 户 


疏 虫 行为 





客户 端 IP 地 址 


同一 时 间 段 内 不 同 用 户 之 间 的 IP 区 
别 比较 大 ,IP 地 理 分 布 和 请 求 量 分 布 
也 比较 随机 


可 能 通过 单一 IP 或 者 代理 IP 访问 , 简 
单 的 仆 虫 往往 是 通过 单一 IP 进行 访问 ， 
导致 单一 IP 的 请 求 量 很 高 





HTTP 请 求 Headers 
数据 的 完整 性 


使 用 流行 的 浏览 器 或 者 站 点 的 客户 
端 ,Headers 数据 由 浏览 器 /客户 端 自 
动 生成 ,主要 包括 User-Agent, 允许 的 
字符 集 及 本 地 文件 的 过 期 时 间 等 


可 能 会 使 用 无 Header 浏览 器 ,或 者 模拟 
浏览 器 进行 访问 ,访问 请 求 存在 无 
Headers 数据 和 数据 内 容 异 常 的 情况 。 
由 机 器 生成 的 Header 往往 内 容 相对 园 
定 ,替换 部 分 参数 ,但 是 同一 个 疏 虫 的 请 
求 可 以 发 现 差别 很 小 





Headers. referer 数 


据 合法 性 


HTTP 请 求 的 Headers. referer 是 本 
站 点 内 的 页 面 或 者 友好 网 站 ,如 搜索 
引擎 


HTTP 请 求 的 Headers. referer 可 能 不 
存在 或 随意 填写 的 ,不 在 合法 范围 内 





请 求 中 特定 的 
Cookies 数据 的 合 
法 性 


每 次 访问 使 用 相同 的 浏览 器 ,也 自然 
会 调用 相同 的 Cookies 


不 一 定 会 使 用 Cookies ,如果 采用 代理 访 
问 的 方式 ,简单 候 虫 每 次 上 传 的 Cookies 
可 能 会 不 同 





请 求 时 间 间 隔 规 
律 性 


花费 一 定时 间 浏 览 完 页 面 内 容 后 跳 
转 至 下 一 页 面 ,或 者 同时 打开 少量 的 
页 面 进行 预 缓 存 


采集 页 面 后 分 析 处 理 即 进行 下 一 步 采 
集 ,每 次 访问 间隔 相对 固定 (有 的 仆 虫 采 
用 增加 随机 延 时 的 方式 模拟 自然 
人 访问 ) 





能 否 通 过 验证 码 


能 够 在 页 面 出 现 异常 显示 时 及 时 进 
行 干预 ,如 输入 验证 码 或 者 单 击 指定 
的 按钮 等 


难以 处 理 复 杂 的 验证 码 或 验证 操作 





页 面 资源 加 载 特征 


加 载 页 面 时 会 加 载 相关 的 所 有 JS/ 
CSS 等 脚本 文件 和 静态 资源 


大 部 分 会 只 获取 HTML 文件 (但 使 用 模 
拟 浏览 器 的 也 会 加 载 JS/CSS 等 ) 





页 面 JS 执行 特征 





会 访问 页 面 的 所 有 资源 ,即使 是 页 面 
上 对 自然 人 是 不 可 见 的 





4 会 执行 页 面 可 见 的 JS, 访问 可 见 的 页 
面 内 容 





目前 主流 的 反 疏 虫 技术 的 聆 虫 识别 方法 也 是 针对 上 述 区 别 而 进行 的 ,并 不 只 是 针对 恶 
意 仆 虫 的 识别 ,这 些 方法 主要 包括 以 下 几 种 。 

(1) 通过 IP 与 访问 间隔 等 请 求 模式 的 识别 。 通过 对 短 时 间 内 出 现 的 大 量 访问 的 请 求 
IP 地 址 ( 段 ) 进行 分 析 , 对 异常 的 请 求 IP 的 访问 请 求 要 求 进行 验证 或 临时 封禁 IP 地 址 
( 段 ) 。 这 种 方法 主要 是 阻挡 大 量 的 请 求 ,减少 服务 器 压力 ,一 般 是 作为 反 爬 虫 组 合 拳 的 第 
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三 此 





识别 出 访问 请 求 IP 与 时 间 间 隔 的 异常 后 ,可 以 采用 更 多 的 方法 进一步 确认 是 否 为 疏 
虫 , 也 可 以 为 破坏 正常 访问 的 情况 留 一 个 处 理 途 径 。 

(2) 通过 Header 内 容 识 别 。 对 访问 请 求 的 Headers 信息 进行 分 析 , 主要 是 分 析 来 源 页 
面 (referer) 与 客户 端 类 型 (User-Agent) 是 否 在 合法 范围 之 内 .也 可 以 分 析 Hearders 内 的 其 
他 数据 ,如 页 面 有 效 期 .HOST 地 址 等 信息 的 有 效 性 。 

简单 的 候 虫 一 般 会 使 用 Hearders-Less 浏览 器 或 伪造 Hearders 信息 来 发 送 页 面 请 求 ， 
前 者 是 无 Headers, 后 者 可 以 根据 其 Headers 的 内 容 判 断 是 否 为 伪造 信息 ,如 复 用 相同 的 
Header 或 Header 中 来 源 页 面 数据 并 非 指定 的 来 源 页 面 (通常 一 个 站 点 内 页 面 被 访问 ,其 请 
求 中 的 来 源 页 面 往往 是 本 站 点 的 其 他 页 面 或 友好 的 站 点 )。 疏 虫 的 Header 设置 比较 简单 ， 
一 般 不 会 根据 访问 页 面 不 同 而 专门 切换 ,因而 可 能 会 出 现 重 复 等 情况 ,一 旦 发 现 Header 异 
常 , 则 可 以 识别 为 怜 虫 。 

(3) 通过 Cookies 信息 识别 。 通 过 在 Cookies 中 加 入 多 组 身份 信息 ,每 次 请 求 要 求 进行 
验证 ,可 以 拦截 无 Cookies 的 怜 虫 及 采用 了 随机 代理 且 未 正确 获取 Cookies 的 怜 虫 。 但 是 
Cookies 的 验证 也 有 可 能 导致 正常 用 户 在 登录 和 请 求 时 速度 较 慢 。 

具体 的 做 法 通常 有 : 在 每 次 访问 站 点 时 更 新 Cookies 中 的 密 钥 ,下 次 访问 对 双方 约定 
好 的 数据 使 用 密 钥 加 密 ,并 对 双方 的 加 密 结果 进行 校 验 ; 指定 下 次 请 求 需要 哪些 Cookies 
值 , 对 于 非 指定 的 值 ,页 面 的 JS 代码 中 了 予以 忽略 , 聆 虫 的 开发 者 若 不 仔细 分 析 页 面 JS 迎 辑 ， 
就 会 出 现 发 送 了 Cookies 但 依然 被 识别 出 是 非法 请 求 的 情况 。 

(4) 通过 验证 码 识别 。 验 证 码 的 形式 多 种 多 样 , 主 要 的 意图 是 通过 验证 码 的 方式 判断 
请 求 者 是 人 还 是 机 器 ,也 能 够 通过 验证 码 增加 采集 的 难度 .降低 采集 的 频 度 。 通 常 采 用 的 有 
图 形 文字 验证 码 ,行为 动作 验证 、 声 音 验 证 或 第 三 方 验证 等 方式 。 

(5) 通过 对 客户 端 是 否 支 持 JS 的 分 析 来 识别 。 客 户 端的 JS 支持 情况 可 以 使 用 
< noscript > 标签 判断 .可 以 用 于 拦截 不 支持 JS 或 者 不 进行 JS 解析 的 怜 虫 。 通 常 的 浏览 器 
会 加 载 JS 脚本 ,并 不 会 触发 < noscript > 标签 ,而 非 浏 览 器 模拟 的 怜 虫 由 于 不 加 载 JS 脚本 ， 
因此 会 导致 < noscript > 标签 被 触发 ,进而 使 得 服务 器 能 够 判定 访问 非法 。 

(6) 通过 是 否 遵 循 Robots 协议 来 识别 是 否 友 好 。 当 客户 端 请 求 识别 为 仆 虫 发 起 之 
后 ,可 以 根据 其 对 Robots. txt 协议 的 遵守 情况 判断 是 否 友好 的 聆 虫 。 具 体 方 法 比较 简 
单 , 即 在 Robots 文件 内 配置 Disallow 策略 。 例 如 “Disallow: /admin/”, 当 疏 虫 不 访问 
Robots. txt 文件 或 者 访问 了 文件 后 仍然 访问 “/admin/ ”中 的 文件 , 则 可 以 判断 疏 虫 为 不 友 
好 的 怜 虫 。 

在 通过 前 述 的 方法 识别 并 标记 疏 虫 后 .可 以 通过 禁止 访问 .增加 采集 难度 等 方式 进行 阻 
止 或 反 制 ,主要 的 方法 有 如 下 几 种 。 

(1) 通过 非 200/304 的 Response Status 禁止 访问 。 例 如 ,返回 表示 异常 的 HTTP 
Status Code: 404/403/500 等 ,相当 于 直接 告知 疏 虫 已 经 被 封禁 。 

本 方法 的 实现 比较 简单 ,在 大 部 分 的 服务 端 代码 中 只 需要 对 标记 为 怜 虫 的 访问 线程 的 
请 求 return 相应 的 status code 即 可 。 例 如 , python 的 django 框架 中 只 需 一 句 :; return 
Http 404。 

(2) 封禁 IP( 或 耳 段 ) 的 访问 权限 。 目 前 .服务 器 的 防火 墙 及 软件 环境 大 部 分 均 具有 防 
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止 恶意 攻击 的 功能 ,可 以 实现 在 一 定时 间 段 内 限制 特定 的 IP( 或 IP 段 ) 的 访问 ,或 永久 禁止 
某 IP( 或 全 有 段 ) 的 访问 。 其 结果 是 ,使 用 特定 IP 地 址 段 的 客户 端 访问 服务 器 时 ,提示 无 法 连 
接 或 连接 拒绝 。 

(3) 使 用 验证 码 增加 采集 难度 。 图 2-14 所 示 的 是 在 被 检测 为 怜 虫 的 情况 下 ,访问 某 论 
坛 时 出 现 的 页 面 ,要 求 输 入 验证 码 。 





所 Ch Dm 





EE=] 您 所 处 的 网 络 环境 被 限制 访问 ， 需 要 验证 后 ， 才 可 进行 基础 浏览 (无 法 发 帖 ， 回 帖 ) 


验证 码 : | omy 
验证 


Forum Incaps Ver 5.3 


图 2-14 输入 验证 码 的 控制 方式 


(4) 使 用 页 面 异步 加 载 增加 采集 难度 。 页 面 异 步 加 载 一 般 采 用 AJAX 方式 ,同时 采用 
异步 加 载 的 方式 能 够 在 页 面 端 进行 一 些 内 容 混 清 等 操作 。 这 样 的 方式 可 以 使 得 不 支持 JS 
的 息 虫 全 部 无 效 , 而 支持 JS 的 候 虫 需要 解析 AJAX 的 代码 和 执行 逻辑 ,并 进行 进一步 交 
互 ,获取 展示 的 数据 信息 ,才能 还 原 出 数据 。 这 种 方式 实际 上 是 通过 增加 采集 过 程 的 复杂 度 
变相 降低 仆 虫 采集 的 频率 。 

对 于 服务 端的 设计 , 则 可 以 通过 AJAX 架构 的 JS 框架 进行 前 端 页 面 的 架构 泻 染 ,再 通 
过 异步 加 载 向 服务 器 请 求 需要 展示 的 数据 ,以 下 是 前 端的 JS 样 例 代码 : 


(function() { 
Var s= document. createElement( 'script'); 
s. type = 'text/javascript'; 
s.async = true; 
s. src = 'http://www. fudan. edu. cn/script. js'; 
Var x= document. getElementsByTagName( 'script')[0]; 
x. parentNode. insertBefore(s, x); 
])(); 


(5) 动态 调整 页 面 结构 。 动 态 调整 页 面 结构 的 作用 是 增加 采集 者 进行 Web 页 面 分 
析 处 理 的 难度 ,而 非 禁 止 仆 忠 。 当 存在 较 高 仆 忠 访问 的 情况 出 现时 ,可 以 通过 动态 改 
变 HTML 页 面 的 文档 结构 来 使 得 采集 者 设置 好 的 解析 策略 失效 ,进而 影响 其 采集 
进程 。 

最 简单 的 实现 是 通过 改变 、 更 换 HTML 中 的 tab/div/ul 等 标签 或 者 其 ID、CSS 属性 等 
内 容 , 使 得 疏 虫 的 页 面 分 析 逻 辑 失效 。 以 下 是 随机 生成 DIV 的 id 的 样 例 。 
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import random 
div id = "r div "+ str(random. randint(0, 65535)) 





(6) 设置 蜜 钢 。 设 置 蜜 铅 的 目的 是 吸引 并 使 用 蜜 铅 干 扰 采 集 者 ,让 采集 者 误 以 为 是 采 
集 到 了 数据 ,而 实际 上 可 能 采集 到 的 是 大 量 的 垃圾 数据 ,这 个 方法 需要 有 蜜 铅 服 务 器 的 资源 
和 带宽 开销 。 引 导 怜 虫 进入 蜜 缸 的 方式 有 很 多 。 例 如 ,设置 干扰 字段 、 使 用 放置 在 不 可 见 
DIV 中 的 链接 触发 ,在 验证 非 人 为 行为 后 直接 返回 垃圾 数据 等 。 

此 外 ,还 不 断 有 新 的 反 候 虫 设计 出 现 .但 本 质 都 是 验证 行为 是 否 来 自 于 人 ,进而 对 访问 
者 非 人 类 的 行为 进一步 限制 ,并 减少 对 正常 Web 访问 者 的 干扰 。 


2.7.2 反 反 息 虫 技术 


在 大 数据 时 代 , 数 据 信息 的 来 源 已 经 不 仅仅 是 那些 门户 网 站 和 其 中 的 超 链接 ,而 是 切切 
实 实 的 每 个 用 户 及 他 们 在 不 同 的 站 点 上 留 下 的 各 种 痕迹 和 各 种 类 型 的 数据 ,这 些 数据 之 间 
有 着 复杂 的 逻辑 关系 ,同时 还 在 不 断 地 更 新 变化 之 中 。 在 这 样 的 环境 和 前 提 下 ,依赖 数据 提 
供 商 提供 数据 很 难 满足 用 户 对 数据 的 需求 ,主动 使 用 爬虫 技术 进行 数据 的 采集 和 深入 的 探 
索 是 十 分 必要 和 重要 的 。 

数据 采集 的 目标 站 点 众多 ,它们 的 数据 隐藏 深度 、 方 法 不 尽 相 同 ,服务 种 类 、 能 力 和 策略 
也 都 不 尽 相 同 ,在 爬 取 数据 时 不 免 会 碰 到 各 种 反 怜 虫 技 术 , 尤 其 是 某 些 信息 隐藏 在 站 点 比较 
深 的 地 方 。 例 如 ,涉及 社交 网 络 上 用 户 的 个 人 信息 或 社会 关系 等 方面 的 内 容 、 某 些 商 业 站 点 
上 的 评论 信息 等 。 因 此 ,对 于 采用 了 反 息 虫 技术 的 站 点 的 数据 ,需要 在 了 解 了 反 息 虫 的 基本 
技术 和 思路 前 提 下 ,进行 数据 采集 时 通过 有 针对 性 的 技术 手段 进行 反 反 候 虫 ,以 获得 期 望 的 


目标 数据 。 
目前 常见 的 反 反 疏 虫 的 技术 核心 是 尽 可 能 真实 的 模拟 用 户 访问 。 主 要 有 如 下 几 种 
方法 。 


1. 针对 IP 与 访问 间隔 限制 

不 使 用 真实 IP, 可 以 代理 服务 器 或 者 使 用 云 主机 等 方式 进行 IP 的 切换 ,需要 注意 的 
是 ,当前 有 一 些 站 点 对 云 服务 或 代理 的 IP 端 已 经 进行 了 限制 。 此 外 ,还 要 在 需要 登录 的 情 
况 下 ,准备 多 个 账号 , 以便 进行 切换 。 在 python 中 使 用 request 的 session. get 方法 调用 
proxies 实现 通过 代理 进行 采集 的 基本 代码 如 下 : 

















import random 
import requests 
proxies={ 
'http': 'http://8.8.8.8:8888', 
'https': 'http://4.4.4.4:8484', 
划 ... 可 以 随机 为 session 分 配 绑 定 一 个 代理 服务 器 
上 
worker_session = requests.Session() 
r= worker_session. get (url, proxies = proxies, cookies = cookies, verify = False, stream= 
True, headers = headers, timeout = 5000) 
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2. 针对 Header 的 内 容 验 证 


使 用 Selenium 或 其 他 内 嵌 浏 览 器 进行 浏览 器 的 访问 和 模拟 ,同时 构造 合理 的 Headers 
信息 ,主要 包括 User-Agent 和 Hosts 信息 。 使 用 Selenium 则 会 调用 浏览 器 ,下 面 示例 中 是 
调用 Chrome 进行 访问 。 浏览 器 的 调用 可 以 实现 Headers 信息 的 自动 完成 ,当然 也 可 以 根 
据 规 则 自行 组 装 Headers 信息 。 














间 coding:utf -8 

from selenium import webdriver 

from selenium. webdriver. common. action_chains import ActionChains #3 引 | 人 ActionChains 鼠标 操 
作 类 

from selenium. webdriver. common. keys import Keys #3| 人 keys 类 操作 

import time 


def s(int): 

time. sleep( int) 
browser = webdriver. Chrome( ) 
browser. get( 'http://www. x*xxxx .com') 
browser. maximize_window() 提 最 大 化 浏览 器 
browser. find_element by_id('r_div'). send_keys(u'zeng') 
browser. find_element by id('r_div').get attribute( 'uid') 
browser. find_element_by_id('r_div'). size 井 打印 和 输入 框 的 大 小 
browser. find_element by_id('r_div').click() 
time. sleep(3) 


自行 组 装 的 Headers 信息 可 以 通过 python 的 requests 库 发 送 给 服务 器 。 

3. 针对 Cookies 验证 

使 用 不 同 的 线程 来 记录 访问 的 信息 ,如 python 中 的 requests. session, 为 每 个 线程 保存 
Cookies ,每 次 请 求 的 Header 均 附 上 正确 的 Cookies, 或 者 按照 站 点 要 求 正确 使 用 Cookies 
内 的 数据 (如 使 用 Cookies 内 的 指定 密 钥 进 行 加 密 校 验 )。 


井 每 个 线程 均 保留 Cookies 信息 

worker_session = requests. Session() 

log_in result = worker_session. post(url, data= login_info, headers = headers) 

Cookies = log_in_result. cookies 

r= worker_session. get(url, proxies = proxies, cookies = cookies, verify= False, stream= 
True, headers = headers, timeout = 5000) 


4。 针对 验证 码 

目前 主流 的 验证 码 破解 主要 有 两 种 : 机 器 图 像 识别 与 人 工 打 码 ,此 外 还 可 以 使 用 浏览 
器 插件 绕 过 验证 码 的 类 似 技术 。 机 器 图 像 识别 可 以 基于 python 中 的 PIL(Python Imaging 
Library) 库 。PIL 支持 多 种 格式 的 图 像 编码 方式 .并 且 可 以 做 一 些 变形 等 图 像 处理 。 然 后 
结合 其 他 函数 库 ,如 pytesseract ,这 是 一 个 基于 google's Tesseract-OCR 的 独立 封装 包 , 它 
能 够 识别 图 片 文件 中 的 文字 ,并 作为 返回 参数 返回 识别 结果 。 


























50 互联 网 大 数据 处 理 技术 与 应 


5. 针对 页 面 异步 加 载 与 客户 端 JS 支持 判断 

可 以 使 用 Selenium 或 PhantomJS 进行 JS 解析 ,并 执行 页 面 内 容 获取 所 需要 的 正确 的 
JS 方法 /请 求 。 当 然 , 也 可 以 使 用 真实 的 浏览 器 作为 采集 工具 的 基础 。 例 如 , 自 定 义 封 装 一 
个 自 定义 的 Firefox 浏览 器 ,以 插件 的 形式 实现 采集 工具 。 

6. 针对 动态 调整 页 面 结构 

对 于 这 种 方式 的 反扑 虫 技术 ,最 好 的 办 法 是 首先 采集 页 面 ,而 后 根据 采集 到 的 页 面 再 进 
行 分 类 处 理 , 在 疏 虫 程序 中 异常 的 捕获 更 是 不 能 少 。 如 果 一 个 页 面 的 HTML 毫 无 规则 , 那 
么 其 显示 也 将 是 一 个 问题 ,因此 对 于 动态 调整 结构 的 页 面 可 以 采用 Selenium 加 载 浏览 器 ， 
按照 信息 的 区 域 进行 采集 的 方式 进行 尝试 采集 ; 此 外 还 可 以 尝试 使 用 正则 表达 式 ,将 结构 
中 随机 因子 握 除 。 

7. 针对 穴 缸 方式 的 拦截 

这 种 情况 下 ,只 有 一 个 策略 ,不 要 着 急 进 入 超 链接 。 首 先 分 析 蜜 铅 的 结构 ,判断 是 使 用 
表单 隐藏 字段 .使 用 隐藏 的 页 面 ,或 者 是 使 用 其 他 方法 的 蜜 钢 , 分 析 到 异常 之 后 ,在 提交 表单 
和 采集 页 面 时 绕 过 蜜 饶 。 


2.8 ”有 瓜 虫 技术 的 展望 


信息 时 代 的 核心 是 信息 ,而 随 着 互联 网 规模 的 扩张 ,以 及 信息 的 生产 ,组织 形式 的 变革 ， 
信息 的 量 和 维度 也 在 不 断 增加 , 疏 虫 技术 将 要 面 对 的 是 数据 的 更 高 的 维度 , 反 疏 虫 技 术 同 样 
也 要 在 更 多 的 维度 上 面 对 怜 虫 的 朴 取 。 同 时 云 服务 的 广泛 应 用 及 基础 硬件 (如 计算 能 力 、 网 
络 带宽 等 ) 的 提升 , 聆 虫 的 聆 取 能 力 .或 者 说 不 友好 扑 忠 的 破坏 能 力也 会 得 到 提升 ,双方 的 相 
互 博弈 如 同 生 态 中 的 捕食 者 与 被 捕食 者 一 样 ,都 将 会 与 时 俱 进 。 

由 于 页 面 数量 大 、 页 面 处 理 量 大 ,互联 网 大 数据 的 采集 难度 较 大 ,可 靠 高 性 能 的 息 虫 对 
于 实际 应 用 很 重要 。 疏 虫 的 体系 结构 除了 引入 简单 的 多 线程 .分 布 式 技 术 外 ,结合 云 计 算 技 
术 的 发 展 ,更 多 地 依赖 于 云 平台 所 提供 的 集群 .分 布 计算 能 力 , 将 会 是 一 个 大 规模 息 虫 的 主 
要 部 署 形式 。 

目前 看 来 信息 资源 的 拥有 者 具有 如 下 两 个 优势 ,有 可 能 在 一 定 程度 改变 互联 网 大 数据 
应 用 中 针对 Web 数据 的 获取 。 

1. 变 被 动 为 主动 

信息 资源 的 拥有 者 可 以 主动 开放 API, 通 过 引导 数据 采集 者 使 用 合理 的 数据 采集 渠道 ， 
获取 新 的 利润 增长 点 ,实现 双赢 。 目 前 遍地 开花 的 开放 平台 基本 都 是 这 样 的 思路 ,已 经 呈现 
出 初步 的 转变 思路 。 

2. 政策 法 律 的 完善 

如 同安 全 领域 的 破解 与 反 破 解 , 秩 序 的 破坏 者 会 受到 更 多 的 约束 ,而 信息 时 代 的 法 律 法 
规 也 在 不 断 地 随 着 时 间 的 推移 而 完善 ,不 仅 有 技术 范围 内 的 协议 准则 (Robots) ,更 会 有 法 
律 效应 的 限制 约 东 扑 忠 及 其 背后 的 数据 采集 者 的 行为 。 

从 长 远 来 看 ,把 虫 与 反 候 虫 及 反 反 候 虫 将 会 保持 相互 矛盾 、 相 互 克 制 的 状态 ,同时 也 相 
互 促进 乃至 相互 包容 .共同 为 最 终 的 用 户 提供 有 价值 的 服务 和 信息 。 











第 2 章 Web 页 面 数据 获取 51 





1. 网 络 仆 虫 需要 完成 的 基本 功能 有 哪些 ,分 别 采 用 什么 样 的 技术 手段 来 实现 ? 

2. 归纳 分 析 主 题 候 虫 的 链接 相关 估算 时 可 以 使 用 的 信息 .并 提出 使 用 这 些 信息 来 估算 
的 方法 。 

3. 动态 Web 页 面 获取 方法 有 哪 几 种 实现 方式 ,分 析 并 比较 它们 的 优 缺点 。 

4. 以 汽车 销售 领域 为 例 , 说 明 DeepWeb 数据 获取 所 需要 的 本 体 知识 库 中 的 知识 构成 ， 
以 及 这 些 知 识 在 DeepWeb 数据 获取 中 的 作用 。 

5. 基于 现 有 的 怜 虫 开 源 系统 或 郴 数 库 , 编 写 一 个 主题 怜 虫 ,实现 从 新 闻 网 站 疏 取 证 券 
类 新 闻 。 


€ 第 3 瘟 
\ 互联 网 大 数据 的 提取 技术 





本 章 描 述 了 从 Web 页 面 上 提取 感 兴趣 信息 的 方法 ,包括 基于 特征 模板 、 基 于 页 面 解析 
树 的 方法 ,以 及 基于 统计 的 方法 等 。 同 时 考虑 到 互联 网 大 数据 来 源 的 多 样 性 ,除了 Web 页 
面 外 ,也 简单 介绍 了 Web 日志 信息 和 ETL 信息 提取 方法 ,并 结合 阿里 云 公众 趋势 分 析 介 绍 
了 Web 信息 提取 的 应 用 效果 。 


3.1 Web 页 面 内 容 提 取 技 术 


Web 页 面 中 包含 有 丰富 的 信息 内 容 , 对 于 互联 网 大 数据 分 析 有 用 的 信息 可 能 是 某 个 新 
闻 报道 页 面 中 的 正文 部 分 ,也 可 能 是 某 网 络 论坛 中 的 帖子 信息 、 人 际 关系 信息 等 。 在 进行 
Web 页 面 内 容 提取 时 ,一 般 是 针对 特定 的 网 站 ,因此 ,可 以 假设 页 面 结构 特征 是 已 知 的 。 在 
这 种 条 件 下 ,页 面 内 容 的 提取 就 是 根据 结构 和 内 容 特 征 进行 提取 ,在 方法 上 大 同 小 异 。 这 里 
主要 介绍 两 大 类 目前 使 用 的 主要 方法 , 即 基 于 HTMLParser 的 解析 和 基于 Jsoup 的 页 面 内 
容 提 取 。 


3.1.1 Web 页 面 内 容 提取 的 基本 任务 


从 Web 页 面 中 提取 内 容 , 首先 要 对 Web 页 面 的 各 种 常见 版 面 进行 整理 归纳 。 目 前 
Web 页 面 版 式 各 式 各 样 ,但 可 以 归结 为 以 下 3 种 。 

(1) 新 闻 报 道 型 页 面 。 页 面 上 尽管 可 能 会 有 导航 区 、 外 部 链接 区 版权 声明 区 等 区 域 ， 
但 是 作为 新 闻 正 文 文字 一 般 是 占 主要 的 位 置 。 典 型 的 如 图 3-1 所 示 的 参考 消息 网 站 的 新 闻 
报道 ,页 面 的 最 上 面 是 一 些 广告 .导航 条 ,右边 是 一 些 信息 推荐 。 对 于 这 种 类 型 而 言 , 目标 就 
是 提取 正文 部 分 的 内 容 。 

(2) 列表 型 页 面 。 这 类 页 面 为 用 户 提供 一 种 列表 式 的 阅读 .一 般 是 作为 聚集 信息 的 访 
问 入 口 。 比 较 常 用 于 新 闻 列表 、 网 络 论坛 中 的 讨论 区 人 口 等 。 对 于 这 种 类 型 ,通常 会 遇 到 翻 
页 , 即 上 一 页 .下 一 页 等 链接 ,允许 用 户 在 不 同 的 列表 页 面 上 跳 转 。 图 3-2 所 示 的 是 两 种 典 
型 的 列表 型 页 面 ,左右 两 边 分 别 来 自 网 络 论坛 和 新 闻 网 站 。 对 于 这 种 类 型 而 言 ,目标 就 是 提 
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中 国 时 事 ”社会 加 4 NAT 科技 揉 索 工 时 事 汤 画 封面 
国 F 下 太 浊 司 日 皮 ”商业 公司 译名 双 三 。 漫 起 平和 办 公 室 ”战争 之 王 
上 一 一 一 -一 天 一 | 了 网 和 六 和 讨论“ 汉 外 看 中 国 二 国有 横 S# 读 拓 4 同 。 国 5 和 ME 呈报 


前 页 "正文 


湖北 多 地 降雨 量 百年 一 遇 将 成 史上 最 强 过 程 之 一 


2016-07-02 13:30;52 来源; 刑 臣 同 。 责 任 护 查 ; 


剂 楚 网 消息 《记者 徐 芳 实习 生 杜 婷 粗 ) ?月 2 日 ， 湖 北 省 人 民政 府 新 闻 办 公 室 召 
开 近 期 雨情 汛情 新 闻 发 布 会 。 湖 北 省 气象 局 减灾 处 处 长 王 丙 介绍 ， 入 格 以 来 ， 我 省 先后 
出 现 了 四 轮 暴 雨 过程， 强度 大 ， 范 围 广 ， 时 间 集 中 ， 多 地 降雨 量 百年 一 过 ,从 6 月 30 晶 
开始 的 第 四 轮 暴雨 过 程 仍 在 持续 ， 预 计 此 轮 降 水 将 成 为 史上 最 强 过 程 之 一 。 











图 3-1 新 闻 报道 的 版 面 


取 列 表 部 分 的 所 有 内 容 。 
EE "史上 HBR7 月 起 实施 中 小 公司 或 加 清洗 
Bd 二 过。 标题 作者 下 市 以 手 曾 不 各 上 这 蕊 敌 更 多 手 等 出 霉 好生 请 正直 起 
874098 。 2889 中 读 言 一 、 匡 超 乐 娩 放 特力 /等 隘 票 案 刊 没 全 类 起 。 对 全 浮 论 
i aw “下 汉 守 发 竺 大 洪水 :党 70 米 万 人 辕 移 
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578547 。 367 。 国 辐 央行 ， “人 民 而 市 场 并 常 波动 后 入 市 干预 ” 报道 不 。 对 到 评论 
34979832 6599 。 国 困 东方 财 言 二 尖 万 2 5 伍 全 开户 ， 京 5 99% 臣 资 利率。 。 柬 万 对 到 两 |， 


116973171 0 活 关 宣 中 司 0 筑 用 7 日 和 化 履 冀 过 3-25% nT A 
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国 全 5。 双生 第 流放 订 电导 2016 和 六 prs men A 
1135 。。 ! 的 注 :万 科 复 过 之 日 可 能 总 地产 各 启 流 之 时 万 科 潜 2 











图 3-2 两 种 列表 型 页 面 


(3) 评论 型 页 面 。 用 户 在 页 面 对 某 个 事物 、 话 题 发 表 自 己 的 观点 。 这 种 页 面 整体 上 看 
可 以 是 一 种 列表 型 的 ,但 是 设计 者 更 加 关心 每 个 评论 中 的 具体 信息 。 一 般 每 个 评论 会 有 评 
论 人 .评论 内 容 .评论 时 间 .评论 对 象 及 评论 的 一 些 量化 信息 等 。 图 3-3 所 示 的 是 大 众 点 评 
网 上 针对 某 个 菜馆 的 评论 信息 。 对 于 这 种 类 型 而 言 , 目 标 就 是 提取 每 个 评论 的 各 个 具体 
信息 。 

以 上 是 从 界面 的 角度 来 看 页 面 内 容 提 取 , 设 计 者 关心 的 是 从 程序 处 理 角度 的 Web 页 面 
信息 提取 。 

与 浏览 器 界面 所 输出 的 效果 不 同 , 程 序 所 看 到 的 是 Web 页 面 对 应 的 HTML 编码 文件 。 
例如 ,对 于 上 面 的 股票 网 络 论坛 的 列表 型 页 面 .其 对 应 的 HTML 编码 文件 内 容 如 下 (其 中 
列 出 了 前 面 两 个 记录 ) : 



































搜索 评论 Q 
有 图 片 (1) 全 部 星 级 ~ 
长 毛 小 怪兽 
ooo 口味 :2 环境 :1 服务 :1 


对 于 这 样 的 小 店 来 说 ， 价 格 是 变卖 的 。 点 了 输 鱼 ，68 一 斤 ,还 有 一 点 蔬菜 ，4 个 人 吃 掉 500 多 。 鱼 
头 烧 豆腐 汤 ， 豆 腐 记 了 放 .…- 也 是 醉 了 ， 味 道 也 不 鲜 ， 怪 怪 的 。 鱼 身 做 的 是 微 辣 ， 味 道 还 梅 … 


更 多 v 
02-16 更 新 于 16-02-16 19:10 布依 农家 野 荣 演 稳 回应 收 襄 举报 
dpuser_55435928611 
口 口 口味 :1 环境 :1 服务 :1 
贵 的 要 死 ， 而 且 难 吃 的 很 ， 但 那 边 都 差不多 
15-10-01 布 术 农家 野 茶馆 壬 ”回应 ”收藏 ”举报 








图 3-3 评论 型 页 面 


<!DOCTYPE html > 

<html lang = "zh— CN"> 

<head> 
<meta http— equiv = "X— UA— Compatible" content = "IE = edge, chrome = 1"> 
<meta name = "renderer" content = "webkit"> 
<meta name = "viewport" content = "width = device— width，initial- scale=1"> 
<meta charset = "utf - 8"> 


<title > 浪潮 信息 (000977)_ 浪 潮 信 息 股 吧 _000977 股吧 _ 股 吧 _ 东 方 财富 网 股吧 </title> 
<meta name = "keywords" content = "浪潮 信息 -000977_ 股 吧 "> 
<meta name = "description" content = "浪潮 信息 (000977)_ 东 方 财富 网 股吧 "> 

</head> 

<body class = "hlbody"> 


<div class = "articleh"> 

< span class = "11"> 885737 </span >< span class = "12"> 2890 </span >< span class = "13"> 
<em class = "settop"> 话 题 </em >< a href = "news, 600258, 432898335. html" title = "中 先 富 盈 、 吴 
峻 乐 操纵 特力 A 等 股票 案 罚 没 金额 超过 10 亿 元 "> 中 镭 富 盈 . 吴 峻 乐 操纵 特力 R 等 股票 案 罚 没 金额 
超 </a></span>< span class = "14"><a href = "http://iguba. eastmoney. com/9313013693864916" 
data - popper = "9313013693864916" data poptype = "1" target = "_blank"> 财 经 评论 </a></span> 
< span class = "16"> 07 - 01 </span>< span class = "15"> 07 - 02 16:41 </span > 

</div> 


<div class= "articleh"> 

<span class = "11"> 386824 </span >< span class = "12"> 157 </span > < span class = "13"> 
<em class = "settop"> 话 题 </em ><a href = "news, cjpl, 433467336. html" title = "证 监 会 三 大 配套 
措施 加 强 对 重组 上 市 监管 " > 证 监 会 三 大 配套 措施 加 强 对 重组 上 市 监管 </a ></span >< span class = 
"14" > < a href = " http://iguba. eastmoney. com/9313013693864916" data - popper = 
"9313013693864916" data - poptype = "1" target = "_blank"> 财 经 评论 </a></span>< span class = 
"16"> 07 - 02 </span>< span class = "15"> 07- 02 16:42 </span> 
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</div> 


</body> 
</html> 


可 以 看 出 ,两 个 帖子 记录 都 是 由 HTML 的 Tag< div class 二 "articleh"> 所 界定 ,Web 内 
容 提取 就 需要 寻找 能 够 定位 记录 的 这 种 Tag 标记 。 当 然 ,这 种 特征 标记 也 未 必 存 在 ,这 就 
要 求 采用 一 些 程序 上 的 技巧 了 。 


3.1.2 Web 页 面 解析 方法 概述 


可 以 看 出 ,为 了 提取 出 在 浏览 器 上 所 看 到 的 格式 化 的 记录 信息 ,在 程序 处 理 中 ,就 必须 
在 相应 的 HTML 编码 文件 中 寻找 所 要 提取 的 记录 ,并 进行 提取 。 

虽然 页 面 类 型 很 多 ,但 无 论 是 针对 哪 种 类 型 的 页 面 ,在 信息 提取 方面 的 基本 思路 是 一 至 
的 ,一 般 有 以 下 3 个 步骤 。 

(1) 分 析 所 处 理 的 HTML 源 文件 的 特征 。 由 于 HTML 文件 中 包含 了 大 量 的 标记 
(CTag) ,这些 标记 描述 了 Web 浏览 器 在 页 面 上 如 何 显示 文字 、 图 形 等 内 容 , 因 此 需要 事先 分 
析 所 要 提取 的 信息 内 容 所 具有 的 标记 特征 。 

(2) 先 根 据 某 种 特征 在 HTML 源 文件 中 定位 要 提取 的 内 容 所 在 的 块 (Block) 。 

(3) 在 Block 内 再 利用 块 内 特征 提取 具体 内 容 。 

现 有 方法 都 比较 成 熟 ,主要 在 于 第 (2) 个 步 又 可 以 采用 不 同 的 定位 方法 。 

最 简单 的 定位 方法 是 采用 字符 串 匹 配 ,以 下 是 Java 的 一 个 片段 ,用 于 提取 评论 型 页 面 
的 "楼层 信息 。 

//pl 是 楼 层 在 HTML 中 的 开始 位 置 

pl = html. indexOf("< div class = louceng >"); 

//s 是 < div class = louceng> 之 后 的 字符 串 

s= html. substring(pl + new String("< div class = louceng >"). length) ; 

// 得 到 楼 层 字符 串 

p2 = s. indexOf("</div >"); 

louceng = s. substring(1, p2); 


这 种 字符 串 分 析 方 法 虽然 实现 起 来 很 简单 .但 是 该 方法 存在 很 多 问题 ,主要 是 扩展 性 不 
好 ,适应 能 力 很 差 、 缺 乏 代 码 的 复 用 能 力 。 

高 级 的 Web 信息 内 容 抽取 方法 主要 有 以 下 几 种 。 

(1) 基于 正则 表达 式 的 信息 抽取 技术 。 正 则 表达 式 是 用 一 种 用 来 标识 具有 一 定 信息 分 
布 规律 的 字符 串 。 在 网 页 信息 抽取 过 程 中 .首先 把 网 页 作为 一 个 字符 流 的 文件 来 处 理 ,通过 
配置 合理 的 正则 表达 式 去 匹配 (定位 ) 待 抽取 的 信息 ,然后 抽取 其 中 的 信息 。 

例如 ,以 下 片段 采用 一 个 正则 表达 式 提取 页 面 中 < date > 标记 的 所 有 日 期 。 

import java. util. regex. Matcher; 


import java. util. regex. Pattern; 
public static void findhtml(String htmlstr){ 
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// 匹 配 < date> 开 头 ,</date > 结尾 的 字符 串 
Pattern pat = Pattern.compile("<date>([^</date>] * )"); 
// 对 Web 页 面 数据 串 htmlstr 进行 匹配 
Matcher m= pat. matcher(htmlstr); 
while (m. find()) { 
String tmp= m. group( ); 
证 (1"".equals(tmp)) { 
tmp = tmp. substring( 6); 
System. out. println(tmp); 





return ; 


1 


这 种 方法 的 优点 是 : 通过 正则 表达 式 可 以 高 效 地 抽取 具有 固定 特征 的 页 面 信息 ,准确 
性 很 高 ,而 且 由 于 现今 的 主流 编程 语言 基本 上 都 提供 了 操作 正则 表达 式 的 封装 API, 因 此 可 
以 很 方便 快捷 地 构建 基于 这 种 模式 的 Web 信息 抽取 系统 。 

其 缺点 是 : 不 能 抽取 那些 未 知 特征 的 网 页 ; 必须 为 每 种 类 型 的 页 面 信息 编写 相应 的 正 
则 表达 式 ; 正则 表达 式 的 编写 比较 复杂 ,需要 有 一 定 的 水 平 ,特别 是 要 有 很 强 的 观察 能 力 ， 
才 可 以 编写 出 高 效 的 正则 表达 式 , 即 对 编写 者 的 要 求 较 高 。 

(2) 基于 HTML 结构 的 信息 抽取 技术 。 该 方法 的 基本 思路 是 ,根据 Web 页 面 的 结构 
组 织 形式 定位 待 提 取 的 信息 。 基 于 HTML 结构 的 信息 抽取 过 程 如 下 。 

首先 通过 HTML 解析 器 将 Web 文档 解析 成 DOM 树 (Document Object Model, 文 档 
对 象 模型 ) ,这 是 由 于 HTML 的 标签 是 可 以 央 套 的 。 

然后 结合 一 定 的 规则 抽取 相关 信息 ,这 些 规则 可 以 自动 或 半自动 方式 得 到 ,从 而 将 信息 
抽取 转换 为 对 DOM 树 的 操作 。 

这 类 技术 的 典型 代表 信息 抽取 系统 有 LIXTO、XWRAP、RoadRunnert 和 W4F 等 ,其 
中 LIXTO 抽取 系统 允许 用 户 以 可 视 化 .交互 式 方式 对 样本 页 面 中 的 信息 位 置 进行 标识 ,从 
而 生成 抽取 规则 ,实现 对 具有 相似 结构 的 Web 页 面 进行 内 容 抽取 。 

(3) 基于 统计 的 信息 抽取 技术 。 基 于 统计 的 网 页 信息 抽取 技术 与 基于 HTML 结构 的 
信息 抽取 方法 类 似 , 都 是 先 获得 Web 页 面 对 应 的 DOM 树 。 但 这 个 方法 是 基于 统计 信息 。 
其 基本 思路 是 : 该 方法 先 利用 解析 器 把 网 页 按照 HTML 标记 的 结构 生成 对 应 的 DOM 树 ， 
然后 基于 某 种 统计 信息 来 获得 正文 内 容 。 这 里 的 统计 信息 要 求 能 够 把 Web 页 面 中 需要 提 
取 的 内 容 和 其 他 内 容 区 分 开 来 ,由 若干 个 统计 量 组 成 。 

基于 统计 的 网 页 信息 抽取 方法 具有 一 定 的 适用 性 。 但 此 种 方式 对 网 页 正文 信息 的 
抽取 依赖 闵 值 , 闵 值 设 定 得 好 坏 , 将 影响 信息 抽取 的 准确 性 ,抽取 的 结果 还 可 能 含有 


噪声 。 
3.1.3 基于 HTMLParser 的 页 面 解 析 
HTMLParser 是 一 个 Java 开源 系统 ,一 种 基于 DOM 树 的 页 面 内 容 提 取 方 法 。 


文档 对 象 模型 ( Document Object Model.DOM) 以 面向 对 象 的 方式 描述 文档 。 它 是 
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W3C 组 织 ( 即 万 维 网 联盟 ,World Wide Web Consortium) 推 荐 的 处 理 可 扩展 标志 语言 的 标 
准 编程 接口 ,DOM 是 W3C 制定 的 标准 ,该 标准 包含 了 通过 DOM 方式 访问 HTML 和 
XML 文档 的 方法 ,分 别称 为 HTML DOM 和 XML DOM。 在 Web 页 面 提取 的 应 用 中 就 是 
基于 前 一 种 标准 。 

图 3-4 所 示 的 是 下 面 HTML 编码 的 页 面 对 应 的 DOM 树 , 最 底层 结 点 就 是 文本 信息 








结 点 。 
< 
DOCTYPE html PUBLIC " - //W3C//DTD XHTML 1. 0 Transitional//EN" "http://wuw. w3. org/TR/ 
xhtml1/DTD/xhtml1 - transitional. dtd"> 
<html xmlns = "http://www. w3.org/1999/xhtml"> 
< head > < meta http - equiv = "Content — Type" content = "text/html; charset = gb2312"> 
<title> 标 题 - www. XXXYYY. com </title></head> 
<body> 
<div id= "top_frame" class = "name"> 
<div id= "logoindex"> 
样 例 
<a href = "http://www.baidu. com"> 样 例 - www.baidu. com </a> 
</div> 
</div> 
</body> 
</html > 





html,/html 


head,/head body,/body 


meta | title,/title divvdiv 















































标题 - iv /di 
www.XXXYYY.com vay 




















样 例 au/a 
样 例 - 
Www.baidu.com 
图 3-4 DOM 树 


在 HTML DOM 树 中 ,每 个 结 点 都 拥有 包含 着 关于 结 点 某 些 信息 的 属性 。 这 些 属性 是 
nodeName( 结 点 名 称 ) .nodeValue( 结 点 值 ) 和 nodeType( 结 点 类 型 )。 特 别 地 ,在 基于 DOM 
树 的 结 点 信息 提取 中 ,通常 需要 对 结 点 类 型 进行 判断 。W3C 标准 中 定义 了 如 表 3-1 中 所 列 
出 的 12 种 结 点 类 型 。 
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表 3-1 HTML DOM 树 中 的 结 点 类 型 





结 点 类 型 描 述 子 结 点 





Element、Text\Comment、 












































1 Element 代表 元 素 ProcessingInstruction 、 
CDATASection, EntityReference 
Attr 代表 属性 Text, EntityReference 
Text 代表 元 素 或 属性 中 的 文本 内 容 None 
ee 代表 文档 中 的 CDATA 部 分 (不 a 
会 由 解析 器 解析 的 文本 ) 
Element ,ProcessingInstruction、 
5 EntityReference 代表 实体 引用 Comment, Text .CDATASection、 
EntityReference 
Element ,ProcessingInstruction、 
6 Entity 代表 实体 Comment, Text .CDATASection、 
EntityReference 
人 ProcessingInstruction 代表 处 理 指令 None 
8 Comment 代表 注释 None 
代表 整个 文档 (DOM 树 的 根 | Element、ProcessingInstruction、 
9 Document 
结 点 ) Comment, DocumentType 
10 | DocumentType 向 为 文档 定义 的 实体 提供 接口 None 
_ 和 Element ProcessingInstruction、 
11 DocumentFragment ap 对 象 Ci \CDATASection 、 
EntityReference 
12 | Notation 代表 DTD 中 声明 的 符号 


在 HTML DOM 标准 中 ,定义 了 所 有 HTML 元 素 的 对 象 和 属性 ,以 及 访问 它们 的 方法 


(接口 )。 换 言 之 ,HTML DOM 是 关于 如 何 获 取 、 修 改 、 添 加 或 删除 HTML 元 素 的 标准 。 
因此 ,可 通过 若干 种 方法 来 查找 希望 操作 的 元 素 ,一 些 常 用 于 Web 信息 提取 的 HTML 
DOM 属性 和 方法 列举 如 下 。 


(1) 常用 的 HTML DOM 属性 。 

Q@ innerHTML 表示 结 点 (元 素 ) 的 文本 值 。 

@ parentNode 表示 结 点 (元 素 ) 的 父 结 点 。 

@ childNodes 表示 结 点 (元 素 ) 的 子 结 点 。 

@ attributes 表示 结 点 (元 素 ) 的 属性 结 点 。 

(2) 常用 的 HTML DOM 方法 。 

@O getElementById(id) 表 示 获 取 带 有 指定 id 的 结 点 (元 素 ) 。 
@ getElementsByTagName 表示 获得 指定 Tag 的 结 点 (元 素 ) 。 
@ appendChildCnode) 表 示 插 入 新 的 子 结 点 (元 素 ) 。 

@ removeChildCnode) 表 示 删 除 子 结 点 (元 素 ) 。 

例如 ,可 以 通过 使 用 一 个 元 素 结 点 的 parentNode、firstChild 及 lastChild 属性 ， 


getElementById() 和 getElementsByTagName() 这 两 种 方法 ,可 查找 整个 HTML 文档 中 的 
任何 HTML 元 素 或 结 点 ,从 而 完成 整个 Web 页 面 的 遍历 。 
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HTMLParser 是 一 个 开源 项 目 ,集成 了 对 HTML DOM 树 的 支持 。 这 是 一 个 在 
SourceForge. net 上 比较 活跃 的 项 目 之 一 ,该 软件 包 可 以 进行 DOM 树 的 生成 .遍历 等 一 系 
列 操作 。 同 时 ,HTMLParser 还 具有 更 多 的 功能 ,是 一 个 对 现 有 的 HTML 文本 进行 分 析 的 
快速 实时 的 解析 器 。 其 中 的 Parser 类 可 以 从 互联 网 上 获取 HTML 文档 或 处 理 本 地 文件 ， 
这 是 获取 网 络 资源 和 处 理 文件 的 入 口 。 

基于 HTMLParser 解析 页 面 的 原理 与 思路 如 下 。 

(1) 提供 一 种 途径 对 HTML( 树 ) 进 行 遍历 。 一 棵 DOM 树 只 要 知道 这 棵 树 的 根 结 点 就 
可 以 通过 结 点 的 父子 关系 遍历 出 整 棵 树 ,因为 node 本 身 保存 有 它 的 父 结 点 和 子 结 点 信息 。 

(2) 提供 一 种 接口 ,允许 程序 员 在 遍历 的 过 程 中 对 结 点 的 属性 和 结 点 关系 进行 检查 ,从 
而 判断 是 否 为 提取 内 容 所 需要 的 结 点 。 

通常 情况 下 ,只 需要 获取 某 些 特定 的 内 容 , 也 就 是 DOM 树 中 某 些 结 点 的 值 ,而 不 是 整 
个 页 面 的 数据 。 因 此 ,就 需要 在 提取 的 过 程 中 对 HTML 页 面 的 标签 ( 结 点 ) 进 行 一 些 筛选 ， 
如 可 以 采用 Filter、Visitor。 

以 Visitor 方式 访问 HTML 文档 的 解析 过 程 如 下 。 

(1) 用 一 个 URL 或 页 面 对 应 文本 String 创建 一 个 Parser。 

(2) 定义 一 个 Visitor。 

(3) 使 用 Parser. visitAlINodeWith( Visitor) 来 遍历 树 中 的 结 点 。 

(4) 获取 Visitor 遍历 后 得 到 的 数据 (或 在 遍历 的 过 程 中 进行 数据 处 理 ) 。 

使 用 Parser 类 来 解析 ,从 程序 实现 的 角度 看 ,包含 如 下 两 个 过 程 。 

(1) 定义 解释 器 。 























try{ 
NodeVisitor visitor = new ContentVisitor (title, contentList); 


if (html != null) { 
Parser parserl = Parser. createParser(htm], "GBK" ) ; 
parserl. visitAllNodesWith(visitor); 
} 
} catch (ParserException e) { 
e. printStackTrace( ); 
} 


(2) 定义 结 点 访问 器 。 在 树 的 遍历 中 进行 结 点 判断 ,这 种 判断 方法 是 基于 一 定 的 规则 ， 
通过 结 点 的 属性 、 标 签 等 信息 来 指定 规则 。 例 如 ,针对 某 个 网 络 论坛 的 帖子 回帖 信息 提取 部 
分 代码 片段 如 下 。 


private class ContentVisitor extends NodeVisitor{ 


private Title title; 
private List < Content > contentList; 


private Content content = null: 


public ContentVisitor(Title title, List < Content > contentList){ 
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this.title = title; 
this. contentList = contentList; 
} 
public void visitTag(Tag tag){ 
Tag tagl, tag2, tag3, tag4, tag5; 
int pl, p2; 
// 以 下 获得 回帖 记录 
if(tag)! = null&&( (tag. getTagName( ). toLowerCase( ). equals(("div")) && "zwlist". equals 
(tag. getAttribute("id"))) )) ( 
try( 
string text = ""; 
string author = ""; 
string date = ""; 
int num; 





NodeList list = tag.getChildren(); 
for (int i = 1;i<= list.size();i++) ( 
if (list. elementAt(i) instanceof TagNode == false) continue; 
tagl = (Tag) list.elementAt(1); 
if (tagl.getTagName().toLowerCase().equals("div") * x ("zwli clearfix").equals 
(tagl.getAttribute("class"))) ( 
tag2 = (Tag)(tagl.getChildren().elementAt(3)); // 从 1 开始 . div class 
= "zwlitx" 
tag3 = (Tag)tag2.getChildren().elementAt(1); //<div class = "zwliext"> 
NodeList list2 = tag3.getChildren(); 
content = new Content(); 


3.1.4 基于 Jsoup 的 页 面 解析 


Jsoup(https://jsoup. org/) 是 一 个 基于 MIT 协议 的 开源 软件 ,与 Python 中 的 
beautifulsoup 功能 相似 ,是 Java 中 常用 的 HTML 处 理 库 。Jsoup 支持 HTML5 规范 ,并 且 
针对 相同 的 HTML 内 容 与 主流 浏览 器 解析 出 的 DOM 相同 ,支持 
DOM/CSS/JQUERY 方法 。 i 

Jsoup 主要 的 功能 有 : 支持 从 URL, 文 件 或 字符 串 中 抽取 与 解 























析 HTML; 支持 使 用 DOM 树 方法 或 CSS 选择 器 方法 查询 与 提取 设 定 HTML 文 档 内 容 

数据 ; 支持 HTML 元 素 、 属 性 与 文本 的 修改 ; 支持 对 用 户 提交 的 表 | 

单 内 容 进行 防 注 入 攻击 处 理 ; 支持 输出 整理 并 格式 化 的 HTML。 将 HTML 转 换 为 
Jsoup 工作 流程 如 图 3-5 所 示 。 ns es 
(1) 通过 URL、HTML 文件 或 字符 品 的 方式 采集 到 包含 | 

HTML 标签 的 HTML 文本 内 容 。 操作 Document 对 象 
(2) 将 HTML 内 容 转换 成 Document 对 象 ,在 这 个 过 程 中 支 | 

持 解析 不 完整 有 错误 的 HTML。 例 如 ,标签 未 封闭 、 某 些 必要 结 。 “| 保存 Document 对 象 











构 标 签 缺少 及 其 他 常见 的 HTML 语法 错误 。 
(3) 获取 到 DOM 之 后 即 可 进行 Document 对 象 操作 。 操 作 


主要 有 提取 结 点 集合 .选中 指定 结 点 . 读 取 选 中 结 点 与 修改 选中 结 
点 几 大 类 。 图 3-5 Jsoup 的 工作 流程 
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与 HTMLParser 的 基本 工作 原理 相似 ,Jsoup 也 支持 以 DOM 方法 遍历 网 页 内 容 。 但 
是 Jsoup 还 支持 CSS 标签 选择 器 .类 Jquery 的 方式 获取 指定 样式 的 标签 、 属 性、 内 容 。 

(4) 对 象 操作 完毕 后 可 以 进行 保存 与 输出 。 

Jsoup 支持 对 象 操作 的 主要 方法 如 表 3-2 所 示 。 
表 3-2 Jsoup 支持 对 象 操作 的 主要 方法 

































































大 类 类 别 方法 名 称 含 区 
getElementById(String id) 按 ID 查找 
getElementsByTag(String tag) 按 Tag 查找 
getElementsByClass 2 
(String class Name) 按 CSS 类 查找 
getElementsByAttribute 
(String key) 按 属性 查找 
siblingElements() ， 
查找 元 素 firstElementSibling( ) , 
lastElementSibling(); 查找 同胞 元 素 
nextElementSibling() ， 
previousElementSibling() 
parent() ， 
children() ， 查找 结 点 层级 
child(int index) 
attr( String key) /attr(String key， 2 
a 获取 属性 与 设置 属性 
DOM 方法 attributes() 获取 所 有 属性 
id() 获取 ID 
className()VclassNames() 获取 CSS 类 
元 素数 据 text()/text(String value) 获取 文本 内 容 /设置 文本 内 容 
html()Vhtml(CString value) 次 衣 元 条 则 的 HT/ 放生 天 表册 的 
HTML 内 容 
outerHtml() 获取 元 素 外 的 HTML 内 容 
获取 数据 内 容 ( 如 script 和 style 
data() 册 
标签 ) 
tag()/tagName() 获取 Tag 与 名 称 
append(String html) a 
de html) 在 元 素 前 后 增加 HTML 
appendText( String text) 二 
提 作 本 RM prependText(String text) 在 元 素 前 后 卉 加 文本 
和 文本 appendElement( String tagName) Es" 2 
prependElement(String tagName) 在 元 案 前 后 增加 其 素 
html(String value) 修改 HTML 内 容 
选择 器 的 功能 非常 丰富 , 支持 
CSS/Jquery Element. select(String selector) Document/Element/Elements 的 选 
选择 器 语法 | 查找 元 素 | Elements select(String selector) | 择 , 并 且 与 上 下 文 相关 ,可 实现 指定 元 











素 的 过 滤 与 链 式 选择 访问 
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在 使 用 Jsoup 采集 一 个 页 面 之 前 首先 需要 分 析 页 面 结构 组 成 ,以 东方 财富 网 的 页 面 


(http://guba. eastmoney. com/ news,000977.444182485. html) 为 例 。 


€ 3 C 看 、 gubaeastmoney comynews000977444182485 html 
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图 3-6 目标 页 面 的 目标 元 素 
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从 图 3-6 的 目标 页 面 可 以 看 出 页 面 主 要 的 内 容 分 为 主题 帖 与 回复 帖 两 个 大 类 型 ,而 要 
提取 的 目标 元 素 是 帖子 部 分 。 对 于 页 面 中 相应 的 部 分 使 用 浏览 器 的 调试 功能 (开发 人 员工 
具 ), 从 图 3-7 的 目标 页 面 的 结构 分 析 可 以 发 现 ,两 者 均 在 id 为 mainbody 的 DIV 结 点 下 ,其 
CSS 类 为 zwcontentmain 和 zwli clearfix, 因 此 可 以 使 用 从 DOM 树 选 取 结 点 的 方式 ,也 可 以 





DOM m1 中 回 
4 <div ide"mainbody"> 
b <div zheadpager” >-</div> 





b cdiv ida"zwmbtiry -xjdiv> 
4 iv ide"zwcontent-) 
b cdiv ide"rwcontt">-</div> 
4 div class="zwcontentmain"> 
4 div ide"ryconttbt"> 
为 什么 现在 爱人 提 澳 邯 吾 体 上 市 。 或 者 品 收 合并 丈 著 次 件 
S/div> 
b div 1de"rwconbody">—</div> 
S/div> 
b <div class="zwconbtns clearfix">_¢/div> 
b «<div classr"gubamobilegg2914” 1d="zwcontentbee” style="text-align: center;">.</div> 
div classa"clear")c/div> 
S/div> 
<div ide"rwcontab™><¢/div> 
Adiv ide"rmlist"> 
4 div class="zmli clearfix” id="zwli8249678519" data-huifuuid="" cata-huifuid="8249678519"> 
b <div class="zwjubeo™>-</div> 
b cdiv class="zwliing">¢/div> 


b <div class="mli clearfixr id="rmli8240719469" data-nuifuuid="3853994319399856" data- 
huifuid="8240719469">-</div> 
cdlv classm"mlt clearfixr 10-"mi8240786952" 






szwli clearfix” 1d="zm1i8241297525" data-huifuuid= 
R28120TS2S "> /iy> 


后 To 


2667844669851478- 





iata- 





b <div class="zwli clearfix” ia--zw118249683654” data-huifuuid-” cata-huifuid="8249683654">.</div> 





cata-huifuid="8241192564"》-x/div> 
cata-huifuid-"8241193296"》-</divy 








图 3-7 目标 页 面 的 结构 分 析 
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使 用 CSS 类 选择 的 方式 实现 主题 帖 和 回复 帖 的 内 容 提 取 。 

经 过 页 面 结构 分 析 之 后 ,可 以 给 出 提取 主题 内 容 和 回帖 内 容 的 主要 代码 。 方 法 article 和 
article_2 是 两 种 不 同 的 选择 方法 ,执行 后 的 结果 一 致 , 均 为 在 屏幕 打印 输出 当前 页 面 的 主题 帖 
子 的 标题 与 内 容 。Dialog 方法 在 执行 后 则 会 在 屏幕 打印 输出 所 有 回复 帖子 的 DIV 的 HTML 
内 容 ,具体 实践 中 还 可 以 进一步 对 回复 帖子 的 HTML 内 容 进行 分 析 , 以 提取 更 多 信息 。 





package com. fudan. Jsoup; 

import java. io. IOException; 
import org. jsoup. Jsoup; 

import org. jsoup. nodes. Document; 
import org. jsoup. nodes. Element; 
import org. jsoup. select. Elements; 


public class JsoupTest { 
static String url = "http://guba. eastmoney. com/news, 000977, 444182485. htm1" ; 
/ xx 
* 获取 指定 URL 的 帖子 内 容 
%/ 
public static void Dialog() { 
Document doc; 
try{ 
// 通 过 指定 的 URL, 使 用 Get 方法 获取 HTML 内 容 并 转换 为 Document 对 和 象 
doc = Jsoup. connect(url). get(); 
// 通 过 getElementsByAttributeValue 方法 选择 指定 的 回帖 的 Div 内 容 
Elements ListDiv = doc. getElementsByAttributeValue("class", "zwli clearfix"); 
for (Element element :ListDiv) { 
// 输 出 DIV 
System. out. println(element. html( )); 
} 
} catch (IOException e) { 
e. printStackTrace( ); 
} 
| 
/ #x 
* 获取 页 面 的 文章 标题 和 链接 
*/ 
public static void article() { 
Document doc; 
try { 
doc = Jsoup. connect(url).get(); 
// 通 过 getElementsByAttributeValue 方法 选择 指定 的 主题 帖 (zwcontent) 的 Div 内 容 
Elements ListDiv = doc. getElementsByAttributeValue( "class"," zwcontent"); 
for (Element element :ListDiv) { 
// 通 过 指定 的 ID 获取 到 标题 (zwconttbt) 与 正文 (zwconbody) 
Elements content title= element. getElementsByID("zwconttbt" ); 
Elements content_body = element. getElementsByID( "zwconbody" ); 
// 解 析 标 题 与 正文 文本 ,并 输出 


String contentTitleText = content title. text().trim(); 
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System. out. println(contentTitleText) 
String contentText = content_body. text(). trim(); 
System. out. println(contentText); 
} 
} catch (IOException e) { 
//TODO auto - generated catch block 
e. printStackTrace( ); 





/ xx 
x 获取 页 面 的 文章 标题 和 链接 
*/ 
public static void article 2() { 
Document doc; 
try { 
doc = Jsoup. connect(url).get(); 
// 使 用 Select 方法 取得 主题 帖 (zwcontent) 的 Div 内 容 
了 Elements ListDiv = doc. select("div. zwcontent" ); 
for (Element element :ListDiv) { 
Elements content_title = element. getElementsByID( "zwconttbt" ); 
Elements content_body = element. getElementsByID( "zwconbody" ); 
String contentTitleText = content title. text(). trim(); 
System. out. println(contentTitleText) ; 
String contentText = content_body. text(). trim(); 
System. out. println(contentText) 
} 
} 
} catch (IOException e) { 
// TODO Auto - generated catch block 
e. printStackTrace( ); 


由 


从 前 文 可 以 看 出 ,Jsoup 最 重要 的 优点 有 两 处 ,一 处 是 能 够 处 理 不 完整 .不 规范 甚至 结 
构 异 常 的 HTML, 另 外 一 处 则 是 支持 功能 强大 的 选择 器 。 因 而 ,与 HTMLParser 的 单纯 
DOM 树 查 找 相 比 Jsoup 的 兼容 性 更 好 ,并 且 能 够 更 快速 地 选择 到 目标 内 容 。 而 Jsoup 与 
Python 中 的 BeautifulSoup 相 比 功 能 各 有 千秋 ,BeautifulSoup 额外 支持 正则 表达 式 搜 索 与 
XML 解析 。 实 际 工作 中 可 以 根据 项 目 技术 选 型 进行 与 生产 环境 的 情况 具体 决策 , 当然 选 
择 一 种 开源 架构 还 要 看 它 是 否 得 到 了 及 时 的 维护 和 更 新 。 


3.2 ”基于 统计 的 Web 信息 抽取 方法 


对 于 Web 疏 虫 而 言 , 能 疏 取 到 各 种 各 样 的 页 面 , 大 部 分 可 能 是 事先 并 不 知道 的 Web 站 
点 ,因此 在 后 续 的 提取 过 程 中 ,并 无 法 事先 为 这 些 站 点 上 的 页 面 设 定 正文 的 特征 标志 
(CTag) ,由 此 就 不 能 直接 利用 前 述 所 提 到 的 方法 。 另 外 一 种 场景 是 ,尽管 怜 虫 疏 取 固定 的 某 
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些 网 站 页 面 ,但 是 网 站 也 会 经 常 升级 改版 ,由 此 导致 写 好 的 程序 针对 新 版 失效 了 。 

在 处 理 这 些 场景 下 的 页 面 内 容 提取 ,提取 程序 就 需要 有 一 定 的 智能 性 ,能 够 自动 识别 某 
个 Web 页 面 上 的 正文 位 置 .其 前 提 是 在 没有 人 工 参 与 的 情况 下 。 一 种 典型 的 方法 是 基于 统 
计 的 页 面 信息 提取 ,其 基本 步 又 如 下 。 

(1) 构建 HTML 文档 对 应 的 DOM 树 。 
基于 DOM 树 的 信息 提取 规则 。 

(3) 按照 规则 ,从 HTML 中 提取 信息 。 

在 这 个 处 理 流 程 中 ,最 重要 的 是 信息 提取 规则 。 规 则 的 制定 或 生成 方法 有 以 下 两 种 。 

(1) 启发 式 方法 。 一 般 通过 人 工 对 HTML 页 面 进行 观察 和 总 结 ,以 DOM 树 所 确定 的 
基本 组 成 单位 为 规则 中 的 特征 ,人 工 估计 其 对 应 的 特征 值 , 从 而 形成 启发 式 规则 。 常 用 的 特 
征 包括 如 下 几 点 。 

J@ 每 个 结 点 (Node) 所 包含 的 文本 信息 内 容 多少 (TextSize) 。 

@ 每 个 结 点 所 包含 的 标签 个 数 (tagCount) 。 

@ 每 个 结 点 内 ,有 链接 与 无 链接 文本 条 内 字符 总 个 数 的 比值 (LinkTextCountRatio) 。 

@ 链接 锚 文 本 的 平均 字符 个 数 (LinkAvgCount) 。 

除 此 以 外 ,还 可 以 找到 更 多 特征 。 根 据 这 些 特征 ,制定 启发 式 规则 来 对 页 面 上 的 内 容 进 
行 识别 和 提取 。 例 如 , “IF LinkTextCountRatio(Ni) 二 2 AND LinkAvgCount(Ni)==6 
THEN Ni 为 导航 区 ”, 这 个 规则 对 DOM 树 中 的 结 点 Ni 从 LinkTextCountRatio 和 
LinkAvgCount 两 个 特征 做 了 限定 ,如 果 符 合 这 个 条 件 , 则 认为 该 结 点 对 应 于 一 个 导航 区 。 

类 似 的 ,考虑 到 页 面 中 的 正文 区 内 通常 会 有 较 多 的 字符 个 数 , 即 TextSize 较 大 ,并 且 所 
包含 的 超 链接 比较 少 ,因此 .可 以 根据 这 些 特征 制定 判断 规则 。 

显然 ,这 种 方法 的 有 效 性 取决 于 规则 的 合理 性 ,主要 是 特征 值 的 具体 取 值 。 为 了 避免 启 
发 式 规则 中 的 人 为 因素 , 另 一 种 方法 就 是 采用 机 器 学 习 的 方法 来 计算 最 佳 的 特征 值 。 

(2) 机 器 学 习 方 法 。 这 种 方法 通过 人 工 选择 大 量 的 HTML 页 面 ,并 对 页 面 中 的 正文 区 
域 进行 标注 ,再 由 程序 计算 正文 结 点 
征 值 。 从 而 将 正文 结 点 的 判断 转换 成 为 一 个 分 类 问题 , 即 根据 某 些 特征 及 特征 值 , 判 断 结 点 
是 否 为 正文 。 这 样 的 问题 显然 适合 用 机 器 学 习 方法 来 解决 。 

这 种 方法 的 优点 是 可 以 通过 样本 和 机 器 学 习 的 方法 获得 最 佳 的 特征 值 ,从 而 能 避免 在 
判断 上 的 主观 性 ,提升 判断 的 准确 性 。 其 缺点 是 需要 有 一 定量 的 人 工 标注 样本 。 

要 注意 的 是 ,前 面 提 到 的 基于 HTML 结构 的 信息 抽取 方法 中 也 涉及 抽取 规则 ,但 是 这 
些 是 比较 简单 的 规则 ,如 信息 块 的 位 置 等 ,因此 其 适应 性 比 这 里 所 讨论 的 基于 统计 的 方法 要 


(2) 基于 


差 一 些 。 





F 某 种 特征 来 构 对 





中 各 种 特征 对 应 的 特征 值 ,以 及 其 他 类 型 结 点 对 应 的 特 


3.3 其 他 互联 网 大 数据 的 提取 


互联 网 大 数据 除了 来 自 Web 页 面 外 ,还 有 其 他 一 些 来 源 ,包括 Web 日 志 、 网 络 探 针 、 各 
种 关系 型 和 非 关 系 型 数据 库 等 。 
IIS、Tomcat、Apache 等 知名 的 Web 服务 器 软件 .都 允许 对 用 户 访 问 服务 器 的 行为 进行 
记录 ,并 生成 相应 的 日 志文 件 。 不 同 的 Web 服务 器 日 志文 件 格式 并 不 完全 相同 ,但 都 记录 
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了 用 户 访 问 的 日 期 \ 时 间 、 客 户 端 IP、 请 求 方法 、 使 用 的 协议 .URI. 状 态 等 。 这 些 日 志 中 的 
内 容 提 供 了 很 多 Web 页面 上 无 法 获得 的 用 户 访问 行为 信息 ,如 用 户 什 么 时 候 登 录 了 服务 








器 ,使 











FTP 下 载 了 什么 文件 .上 传 了 什么 内 容 、 访 问 行为 是 否 成 功 等 。 因 此 ,这 些 日 志文 


件 也 是 互联 网 大 数据 中 的 一 种 与 用 户 访问 行为 相关 的 数据 源 。 

这 种 日 志 数据 本 身 被 组 织 成 为 一 个 文本 文件 ,可 以 当 作 是 关系 型 数据 库 来 访问 。 但 是 
由 于 该 文件 是 按照 用 户 访问 网 站 的 时 间 先 后 来 写 入 日 志 的 ,因此 不 同 用户 的 访问 会 混杂 在 
一 起 。 在 进行 提取 时 就 需要 进行 用 户 的 识别 ,通常 可 用 的 信息 有 客户 端 IP、 用 户 名 及 客户 
端 Agent 信息 。 此 外 ,还 应 当 对 同一 个 用 户 在 不 同时 间 段 的 访问 记录 进行 分 割 。 图 3-8 所 
示 的 是 部 分 来 自 apache-tomcat-7.0. 54 的 日 志文 件 内 容 , 该 文件 在 安装 目录 下 的 logs 子 目 


录 中 。 





175.186.146.152 - - [09/Dec/2015: :16 +0800] "GET /sqlinjection/Login.asp HTTP/1.1” 404 995 
175.186.146.152 - - [09/Dec/2015: :17 +0800] "GET /favicon.ico HTTP/1.1”200 21630 
175.186.146.152 - - [09/Dec/2015:10:32:29 +0800] "GET /sqlinjection/Login.jsp HTTP/1.1" 200 535 


175.186.147.10 - - [09/Dec/201 :29 +0800] "GET /sqlinjection/results.jsp?username=ygsépasswor 
175.186.147.10 - - [09/Dec/201 34 +0800] "GET /sqlinjection/Login.jsp HTTP/1.1”200 535 


175.186.147.10 - - [09/Dec/2015:10:32:47 +0800] "GET /sqlinjection/results.jsp?username=ulépassword 








175.186.146.152 - - [09/Dec/2015:10:32:50 +0800] "GET /sqlinjection/results.jsp?username=rr&passwor 


图 3-8 apache-tomecat-7.0. 54 的 日 志文 件 


对 这 种 数据 源 的 处 理 一 般 需 要 3 个 步骤 , 即 数据 清理 ,用 户 识 别 、 会 话 识 别 。 特 别 要 注 
意 的 是 数据 清理 环节 ,一 般 需要 涉及 以 下 几 方 面 。 

(1) 图片, 脚本 和 样式 : 从 第 2 章 介绍 怜 虫 原理 可 以 知道 ,页 面 上 所 包含 的 图 片 等 资源 
需要 一 次 独立 的 Web 访问 ,因此 它们 也 会 在 日 志 中 生成 一 条 记录 。 

(2) 弹出 式 广 告 : 在 用 户 打 开 网 页 时 自动 弹出 ,并 不 能 反映 用 户主 观 访问 意图 ,应 当 


删除 。 

(3) 用 户 访问 失败 时 的 记录 : 返回 代码 会 保存 在 记录 中 ,错误 如 果 是 由 服务 器 引起 的 ， 
也 无 法 反映 用 户 意图 。 

(4) 类 疏 虫 应 用 : 有 时 客户 端 会 有 类 似 于 疏 虫 功能 的 应 用 程序 ,根据 一 定 规则 自动 在 
客户 端 后 台 抓 取 页 面 , 从 而 产生 了 Web 日 志 记录 ,显然 这 些 也 非 用 户主 动 发 起 的 访问 。 

基于 这 些 日 志文 件 可 以 开展 的 研究 包括 用 户 行为 聚 类 、Web 浏览 服务 预 取 、 页 面 推荐 、 
恶意 行为 检测 等 。 


男 一 种 数据 源 是 数据 库 中 的 数据 ,这 部 分 数据 主要 是 存储 在 互联 网 应 用 的 相关 业务 数 


据 库 中 。 


对 此 ,数据 的 提取 广泛 采用 ETL 技术 ,其 最 初 是 用 于 从 OLTP 抽取 数据 到 数据 仓 


库 中 。 目 前 有 很 多 流行 的 ETL 工具 可 用 .有 利于 提高 工作 效率 。Kettle 就 是 一 款 开源 的 
Java 编写 的 ETL 工具 ,提供 了 一 个 图 形 化 的 用 户 环境 ,来 管理 来 自 不 同 数据 库 的 数据 , 它 
同时 也 提供 了 很 多 控件 ,可 以 在 程序 中 调用 集成 。4. 3 以 上 版 本 的 Kettle 也 针对 Hadoop 
中 的 Hbase、NoSQL 数据 进行 了 支持 。 

而 从 网 络 探 针 获得 的 数据 进行 内 容 提 取 要 复杂 得 多 。 这 种 数据 格式 与 网 络 协 议 有 很 大 关 
系 ,图 3-9 所 示 的 是 一 个 来 自 WireSHARK 分 析 器 截获 的 网 络 流量 数据 。 图 中 最 下 面部 分 就 
是 原始 数据 ,上 面 是 经 过 该 软件 解析 出 来 的 协议 字段 ,显示 的 是 一 个 HTTP 请 求 的 头 部 信息 。 

显然 ,在 程序 自动 处 理 这 种 类 型 数据 时 ,需要 从 原始 的 网 络 数据 流 开始 。 首 先 应 当 把 这 
些 数据 进行 协议 还 原 , 这 里 是 指针 对 TCP、UDP 等 标准 协议 的 还 原 ,提取 出 数据 包 的 相关 
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信息 ,如 时 间 截 、 源 地 址 、 目 的 地 址 、 源 端口 和 目的 端口 等 。 由 于 来 自 所 有 的 访问 、 所 有 应 用 
所 有 不 同 客户 端的 网 络 访问 都 混杂 在 同一 个 数据 流 中 ,因此 , 接 下 来 ,就 应 当 对 解析 出 来 的 
格式 化 流量 再 进一步 区 分 ,按照 源 地 址 、 目 的 地 址 、 源 端口 和 目的 端口 来 标识 一 个 访问 的 连 
接 , 将 所 有 同类 型 的 连接 的 数据 包 进行 整合 ,才能 恢复 出 连接 上 所 传输 的 数据 。 当 然 这 些 数 
据 是 属于 应 用 层 的 编码 ,因此 最 后 需要 对 判断 应 用 层 的 应 用 程序 ,根据 相应 的 协议 对 所 恢复 
出 来 的 数据 进行 内 容 上 的 解码 ,获得 用 户 可 以 理解 的 信息 内 容 。 








Source tinati protocol Length Info 








] Frame 119: 915 bytes on wire (7320 bits) bytes captured (7320 bits) < 
] Ethernet II，Src: LiteonTe 97:75:a7 ( :97:75:a7), Dst: cisco_7f:89: 
] Internet Protocol version 4, src: 10. .149 (10.221.95.149), Dst: 202. 
1 Transmission Control Protocol, src Port: 50854 (50854), Dst Port: 80 (80), 
Hyperrext Transfer Protocol 
国 
Accept: application/x-ms-application, image/jpeg, application/xaml+xm], 
Accept-Language: zh-CN\r\n 
User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; Wow64; Tr 
Accept-Encoding: gzip, deflate\r\n 
Hosr: www.cs.fudan.edu.cn\r\n 
Connection: Keep-Alive\r\n 
日 [truncated]Cookie: _pk_id.1.88e6=9351cc44c332655c.1438848400.1.14388484 
Cookie pair: _pk_id.1.88e6=9351cc44c332655c.1438848400.1.1438848422.14 
Conkie nair: nk rof 1 RARpA=YSRYIICIILICLIILIILICT AIRRARANNICKIIht tn 

















图 3-9 网 络 探 针 获得 的 流量 数据 


3.4 阿里 云 公众 趋势 分 析 中 的 信息 提取 应 用 


以 Web 信息 内 容 的 提取 方法 为 基础 的 应 用 ,在 实际 中 有 很 多 种 ,如 搜索 引擎 系统 ,下 面 
以 阿里 云 大 数据 平台 中 的 “公众 趋势 分 析 ” 服 务 (https://data. aliyun. com/product/ 
prophet) 为 例 构 建 一 个 以 G20 峰会 为 主题 的 互联 网 信息 提取 应 用 。* 公 众 趋势 分 析 ” 服 务 是 
一 个 类 似 于 定义 网 络 和 与 情 服务 的 在 线 系统 ,其 数据 源 是 基于 全 网 公开 数据 ,每 天 更 新 20 亿 
网 页 ,覆盖 各 类 网 站 、 论 坛 、 贴 吧 、 微 博 、 微 信 、 自 媒体 等 ,用 户 还 可 以 定义 特殊 站 点 ,由 该 服务 
系统 负责 仆 行 。 

在 这 个 简单 的 应 用 中 ,要 利用 “公众 趋势 分 析 ” 服 务 提供 的 功能 .构建 一 个 关于 G20 的 
网 络 与 情 信 息 监 测 应 用 。 主 要 功能 包括 与 情 的 关键 词 、 转 发 关系 涉及 的 媒体 等 。 

首先 定义 G20 的 相关 主题 ,这 与 第 2 章 介绍 主题 伶 虫 提 到 的 第 一 种 方式 相同 。 在 该 服务 中 ， 
提供 了 一 个 如 图 3-10 所 示 的 主题 定义 界面 ,其 中 指定 该 主题 的 相关 关键 词 ,可 以 通过 “与 ”“ 或 ” 
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两 种 方法 来 设 定 关键 词 , 此 外 ,从 图 中 也 可 以 看 出 ,还 可 以 指定 信息 来 源 , 即 网 站 类 型 。 








在 设 定 完成 后 ,该 服务 即 从 最 近 的 Web 信息 及 新 生成 的 Web 信息 中 匹配 符合 关键 词 
要 求 的 结果 ,并 按照 关键 词 媒体 (网 站 ) 类 型 进行 聚合 ,显示 各 种 聚合 结果 中 的 匹配 到 的 记 
录 数 ,如 图 3-11 所 示 。 


关键 词 











G0 会 
国际 合作 
经 济 北 长 
属 败 
银行 








局 一 行 的 关键 词 专 示 "与 关系 , 用 宝 格 分 割 
不 同行 的 关键 词 去 示 "或 "关系 


中 文 
试用 阶 盆 仅 支持 中 文 ， 其 他 直言 试用 阶 依 后 柠 全 部 开放 购买 - 


于 论坛 we 画 型 博 二 八 信 
国 政府 目 视频 
目 选择 全 部 


350 





图 3-10 G20 主题 定义 


G20 峰会 407 国际 合作 
经 济 莉 长 51 全 融 检定 
国际 博览 中 心 4 

网 号 论坛 438 天 于 搜索 
新 闻 办 15 HE 
帝 信 条 6 济南 质 监 局 
大 石 桥 市 政府 网 站 | 全 国 打非 办 
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通过 浏览 相应 的 结果 ,可 以 发 现 匹 配 G20 主题 的 相关 关键 词 存在 于 页 面 的 标题 或 主体 
内 容 中 。 显 然 在 匹配 之 前 ,该 服务 对 获取 的 Web 页 面 信息 进行 了 分 析 和 提取 。 一 些 匹 配 的 


图 3-11 G20 主题 聚合 的 统计 结果 
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Web 页 面 ,如 https://zhuanlan. zhihu. com/p/22359398、 http://bbs. money. 163. com/ 
bbs/kgu/616063378. html\http://bbs. money. 163. com/bbs/kgu/616096706. html。 

特别 地 ,对 于 Web 信息 提取 来 说 ,也 不 局 限于 对 内 容 的 提取 。 针 对 各 种 不 同类 型 网 站 
所 提供 的 信息 不 同 ,还 可 以 获得 更 加 丰富 的 信息 。 例 如 .对 于 微 博 而 言 .除了 博文 信息 外 ,还 
有 徽 博 的 转发 .评论 ,朋友 关系 等 信息 ,而 此 类 信息 的 提取 在 技术 手段 上 与 本 章 所 叙述 的 基 
本 原理 是 一 致 的 。“ 公 众 趋 势 分 析 ” 服 务 就 对 微 博 的 转发 行为 信息 进行 了 提取 ,从 而 可 以 在 
此 基础 上 进一步 提供 诸如 微 博 转发 关系 的 可 视 化 信息 。 图 3-12 所 示 的 是 G20 中 某 个 博文 
的 转发 关系 图 。 





CCTVNEWS 


图 3-12 G20 中 某 个 博文 的 转发 关系 


除了 通过 用 户 界 面 进行 主题 定制 和 阅读 外 ,该 服务 系统 也 提供 了 API 调用 的 方式 ,多 
许 用 户 进行 二 次 开发 ,从 而 可 以 更 加 灵活 地 集成 到 应 用 系统 中 。 开 发 者 可 以 通过 API 数据 
接口 进行 : 关键 词 专题 配置 .关键 词 配置 ,接收 实时 抓 取 数 据 、 微 博 传 播 路 径 分 析 。 每 种 功 
能 对 应 一 种 接口 (Interface) ,而 API 执行 结果 返回 的 是 JSON 格式 的 数据 集 , 这 些 信息 正 是 
基于 Web 信息 提取 的 结果 。 图 3-13 所 示 的 是 与 情 数据 GET 的 结果 。 


"messages":[]， 
"result":{f 
“records":[{ 
"id":11175897, 
"monitorkeywords”™:"*", 
"monitorKeywordId":12359, 
“monitorTopicId":8, 
"subject": "人 商 狂 动物 城 ) 尼 克 儿 的 ……… 
"translateSubject":null, 
“translateDescription":null, 
"description":"* 文 章 为 作者 独立 观点 ， 不 代表 虎 串 网 立 *……* eR 
"url":"http://www.huxiu.com/article/147895/1.html?f-index_feed_article"， 
“createdAt“: “2615-64-28T64:53:65.886Z 
"pubTime" :"2616-64-28T84:51:64.9667"， 
"from": " 虎 串 网 ”， 
"langType":"ch”， 
"filterstatus" :1 
“wbType”:2, 
"wbFansCount™ :8, 
"wbRepostCount" :8, 
“wbCommentCount" :8, 
“wbLikeCount”:null, 


图 3-13 和 与 情 数据 返回 结果 示例 (部 分 ) 
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3.5 互联 网 大 数据 提取 的 挑战 性 问题 


Web 页 面 内 容 提取 是 获取 Web 上 海量 信息 的 基础 ,然而 随 着 技术 的 不 断 发 展 ,以 及 站 
点 的 防范 意识 的 增强 ,Web 页 面 信息 内 容 提 取 也 面临 着 多 种 多 样 的 挑战 ,需要 在 不 断 的 研 
究 中 提出 新 的 解决 办 法 。 

由 于 传统 的 Web 页 面 提取 可 以 认为 是 在 相同 的 或 者 相似 的 站 点 ,使 用 规则 的 模板 进行 
内 容 提取 与 过 滤 。 例 如 ,同样 的 Discuz 论坛 ,可 以 使 用 相似 的 模板 规则 进行 论坛 帖子 链接 
采集 与 帖子 内 容 提 取 。 但 随 着 动态 页 面 技术 的 不 断 发 展 . 移 动 终端 的 广泛 使 用 , 以 及 
HTML5 的 逐步 推广 ,目前 页 面 信 息 内 容 存在 两 个 趋势 : 一 是 页 面 动态 加 载 内 容 的 增多 ; 二 
是 多 媒体 内 容 的 增加 。 此 外 还 有 部 分 站 点 为 了 防止 内 容 信息 被 采集 或 自身 的 技术 升级 ,也 
会 导致 其 页 面 结构 改变 等 情况 ,对 采集 者 造成 困扰 ,从 而 要 求 Web 内 容 提取 技术 不 断 升级 。 

具体 的 情况 如 下 。 

(1) 多 媒体 内 容 在 HTML5 中 已 经 是 原生 支持 ,但 是 对 于 其 源 地 址 和 源 文件 的 保护 各 
网 站 实现 方式 不 一 ,如 何 通过 页 面 数据 进一步 获取 到 非 文本 的 内 容 需 要 费 一 番 力 气 ,如 从 爱 
奇 艺 获取 视频 连接 ,但 是 需要 排除 其 中 的 广告 部 分 。 

此 外 ,还 有 部 分 网 站 为 了 保护 其 内 容 , 将 部 分 文本 内 容 以 非 文本 内 容 的 方式 展示 ,这 样 
本 文 内 容 的 解析 也 是 一 大 难点 。 例 如 ,Docin ,百度 文库 等 站 点 的 内 容 信息 均 以 嵌入 的 多 媒 
体 方式 展示 。 

(2) 网 站 页 面 布局 不 断 改版 升级 是 频繁 发 生 的 ,虽然 基于 统计 的 提取 方法 中 引入 了 机 
器 学 习 来 自动 学 习 提取 规则 ,但 是 规则 所 涉及 的 特征 仍 是 事先 定义 好 的 ,因此 ,在 适应 性 方 
面 的 能 力也 有 待 进一步 提升 。 

(3) 基于 DOM 树 的 各 种 提取 方法 对 于 程序 员 来 说 还 是 非常 方便 ,但 是 前 提 是 需要 对 
DOM 树 的 结构 和 编码 组 成 要 了 解 得 很 清楚 ,如 何以 一 种 更 加 直观 可 视 化 特征 来 定义 所 要 
提取 的 内 容 及 其 位 置 ,对 于 提高 编程 效率 是 十 分 重要 的 。 这 将 是 HtmlParser、Jsoup 之 后 的 
提取 架构 需要 考虑 和 突破 的 方向 。 

除了 来 自 Web 页 面 提取 的 挑战 外 ,在 提取 通过 网 络 探 针 方式 获取 的 网 络 大 数据 时 也 面 
临 较 大 的 挑战 。 其 主要 问题 在 于 , 随 着 各 种 互联 网 应 用 的 发 展 ,未 知 的 协议 数据 格式 将 会 增 
加 ,流量 越 来 越 高 .使 得 从 流量 中 进行 内 容 提取 变 得 更 加 困难 。 

而 对 于 ETL 的 挑战 则 在 于 .在 大 数据 处 理 要 求 下 , 越 来 越 多 的 大 数据 应 用 将 会 迁移 到 
云 环境 中 ,从 ETL 抽取 到 的 海量 业务 数据 传输 到 云 环境 ,将 是 对 此 类 应 用 的 很 大 障碍 。 但 
是 这 个 问题 的 解决 应 当 延 伸 到 ETL 提取 阶段 ,而 不 能 仅仅 看 作 是 一 个 数据 迁移 的 问题 。 在 
ETL 中 根据 业务 中 的 数据 关系 逻辑 ,通过 一 些 推理 计算 决定 ETL 的 最 小 数据 集 ,可 以 避免 
元 余 的 数据 抽取 出 来 。 


1. 什么 是 DOM 树 , 它 的 逻辑 结构 是 怎样 的 ? W3C 中 定义 的 对 这 棵 树 的 操作 都 有 
哪些 ? 
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2. 比较 HTMLParser 和 Jsoup 在 Web 页 面 提取 方法 上 的 差异 。 

3. 比较 基于 HTML 结构 的 信息 抽取 方法 和 基于 统计 的 Web 信息 抽取 方法 中 的 规则 ， 
说 说 它们 的 相同 点 和 不 同 点 。 

4. 为 了 基于 新 浪 微 博 构 造 某 个 博文 的 转发 关系 图 ,应 当 进 行 哪些 信息 提取 ? 

5. 选择 一 个 新 闻 Web 页 面 ,用 Jsoup 编写 一 个 程序 ,实现 对 其 中 的 新 闻 正文 内 容 进 行 
提取 。 
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结构 化 处 理 是 指 对 采集 到 的 大 数据 在 分 析 挖 掘 之 前 所 进行 的 处 理 ,取决 于 具体 的 数据 
类 型 和 应 用 等 因素 。 针 对 互联 网 大 数据 而 言 ,特别 是 文本 类 型 等 非 结 构 化 数据 ,进行 结构 化 
处 理 是 分 析 计算 的 前 提 。 本 章 主 要 介绍 文本 这 种 互联 网 信息 的 结构 化 处 理 方法 , 即 对 中 文 
文本 和 英文 文本 信息 的 结构 化 处 理 任务 进行 讲解 。 在 中 文 文本 信息 处 理 方面 ,主要 是 词汇 
的 切 分 .词性 识别 等 ; 而 对 于 英文 文本 信息 而 言 , 主 要 是 进行 词根 还 原 。 由 于 在 文本 的 结构 
化 处 理 中 ,通常 以 词汇 为 中 心 , 因 此 新 词 的 识别 也 是 这 个 阶段 的 一 个 重要 任务 。 


4.1 互联 网 大 数据 中 的 文本 信息 特征 


中 文 文本 广泛 存在 于 互联 网 的 各 种 典型 应 用 中 ,由 于 各 种 应 用 的 特征 或 限制 使 得 互联 
网 大 数据 中 的 文本 信息 表现 出 各 种 不 同 的 特征 。 以 下 从 语言 规范 化 、 口 语 化 .文本 长 短 方面 
对 这 些 文本 信息 进行 简要 叙述 。 

第 一 种 是 语言 使 用 规范 ,在 叙述 上 会 比较 严格 地 遵守 语言 规范 ,很 少 存在 口语 化 的 现 
象 ,通常 文本 也 比较 长 。 这 种 文本 一 般 出 现在 比较 正式 的 场合 ,如 新 闻 报 道 文本 、 政 府 官方 
网 站 。 

第 二 种 是 语言 的 规范 性 不 是 很 好 ,口语 化 的 情况 比较 普遍 ,文本 通常 也 比较 短 。 这 类 也 
就 是 通常 所 称 的 短文 本 。 这 种 典型 的 应 用 就 是 微 博 、 网 络 论坛 . 电 商 网 站 上 的 评论 文本 。 语 
言 的 非 规 范 化 主要 体现 在 .没有 严格 按照 语法 、 句 法 和 用 词 的 规定 ,可 能 在 文本 中 会 插入 一 
些 网 络 表 情 符号 或 超 链 接 , 网 络 语言 的 使 用 也 比较 普遍 。 

第 三 种 是 语言 的 使 用 比较 规范 ,但 是 以 独立 的 词汇 、 短 语 描 述 居多 。 一 些 标签 类 的 信息 
通常 就 是 属于 这 种 情况 ,比如 微 博 中 用 户 的 个 人 标签 信息 、 电 商 网 站 中 产品 的 标签 信息 等 。 

以 上 3 种 类 型 的 文本 信息 在 互联 网 大 数据 分 析 中 都 是 使 用 得 非常 频繁 的 数据 源 ,但 是 
不 管 是 规范 或 非 规 范文 本 .在 进行 分 析 之 前 都 需要 进行 结构 化 处 理 。 目 的 就 是 将 这 些 文本 
转换 成 为 一 种 结构 化 信息 ,这 样 就 可 以 利用 已 经 研究 得 比较 透彻 的 结构 化 方法 来 分 析 和 挖 
据 。 这 里 所 需要 进行 的 结构 化 处 理 包 括 网 络 语言 的 替换 、 网 络 表 情 的 提取 、 超 链接 的 提取 或 
过 滤 、 词 汇 的 切 分 词性 的 识别 、 新 词 识 别 、 命 名 实体 识别 等 。 而 这 些 处 理 中 ,词汇 的 切 分 、 词 
性 的 识别 和 新 词 识别 是 3 个 关键 而 且 具 有 一 定 难度 的 问题 ,因此 ,本 章 主要 叙述 这 3 个 问题 
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的 解决 方法 ,而 命名 实体 识别 具有 一 定语 义 处 理 倾向 ,因此 在 下 一 章 讲解 。 


4.2 中 文 文本 的 词汇 切 分 


词汇 的 切 分 对 于 中 文 文本 数据 来 说 尤为 关键 , 它 是 文本 处 理 挖掘 的 基础 。 其 目的 就 是 
对 给 定 的 一 段 文本 ,将 词汇 逐个 切 分 开 来 。 目 前 这 方面 的 研究 也 比较 成 熟 ,已 经 形成 了 两 大 
类 主要 方法 , 即 基于 词典 的 分 词 和 基于 统计 的 分 词 。 这 两 种 方法 对 定义 词 的 角度 完全 不 同 ， 
基于 词典 的 分 词 方法 认为 只 要 将 一 个 字符 串 放 入 词典 就 可 以 当 作词 ,而 基于 统计 的 分 词 方 
法 认为 若干 个 字符 只 要 它们 结合 在 一 起 的 使 用 频率 足够 高 ,就 可 以 认为 是 一 个 词 。 这 两 种 
截然 不 同 的 分 词 观点 ,也 就 导致 了 两 种 方法 的 实现 有 很 大 差异 。 


4.2.1 词汇 切 分 的 一 般 流程 


词 是 理解 句子 的 基础 ,如 果 需 要 以 词汇 作为 基础 对 文本 做 进一步 的 分 析 , 则 需要 进行 分 
词 处 理 。 例 如 ,在 文本 分 类 文本 聚 类 ,话题 分 析 等 应 用 中 ,分 词 都 是 一 项 基础 工作 。 

分 词 的 任务 是 对 输入 的 句子 进行 词汇 切 分 ,这 是 对 中 文 而 言 。 基 本 的 分 词 工 作 是 切 分 
出 每 个 词汇 ,但 是 词 对 应 的 属性 ,如 词性 .语义 选项 等 与 词汇 关系 密切 ,因此 也 经 常 把 此 类 处 
理 在 分 词 处 理 中 一 起 完成 。 由 于 分 词 过 程 中 会 存在 一 定 的 歧义 ,因此 也 需要 在 切 分 过 程 中 
解决 这 些 歧义 问题 。 总 体 上 ,句子 词汇 的 切 分 流程 包括 三 大 步骤 ,如 图 4-1 所 示 。 

其 中 句子 切 分 , 即 对 输入 的 中 文 文档 进行 预 处 理 , 得 到 单个 中 
文 短 句 的 集合 。 这 一 步 主要 通过 标点 符号 (如 逗号 .句号 .感叹 号 、 
问号 等 ) ,将 中 文 文档 进行 切 分 ,缩小 中 文 分 词 的 句子 长 度 。 

第 二 个 步骤 对 每 个 短 句 进行 词汇 切 分 , 则 是 运用 一 定 的 分 词 
算法 将 其 中 的 词汇 切 分 开 来 。 在 这 个 过 程 中 ,需要 考虑 到 短 句 中 
除了 汉字 以 外 ,可 能 存在 英文 单词 (或 缩写 ) .由 连 字符 连接 的 不 同 
单元 .由 斜 线 连接 的 不 同 单元 数字 等 。 因 此 ,需要 考虑 这 些 非 词 
汇 信息 的 判断 。 词 汇 的 切 分 方法 关键 的 基础 问题 是 要 解决 怎么 定 歧义 识别 、 消 解 等 
义 一 个 词 。 基 于 词典 的 分 词 方法 认为 凡是 定义 在 词典 中 的 字符 串 
都 是 一 个 词 ,而 基于 统计 的 分 词 方法 则 认为 若干 个 字符 组 合 的 概 
率 只 要 足够 大 就 可 以 看 作 是 一 个 词 。 显 然 这 是 两 种 截然 不 同 的 处 ”图 4-1 句子 词汇 的 切 分 
理 思路 和 方法 。 

第 三 个 步骤 是 进行 分 词 结果 的 优化 ,主要 是 考虑 到 分 词 中 可 能 存在 错误 ,对 此 类 错误 进 
行 识别 纠正。 主要 任务 之 一 就 是 歧义 消解 。 

同时 ,在 大 数据 背景 下 ,文本 变 得 更 加 复杂 ,文本 中 会 包含 大 量 非 中 文字 符 , 如 中 文英 文 
混合 文本 、 包 含有 HTML 语言 文本 、 新 词 .繁体 简体 混合 等 。 所 以 在 文档 预 处 理 阶段 ,要 将 
含有 HTML 语言 的 文本 从 原始 文档 中 提取 出 来 ; 将 繁体 简体 字 统 一 转化 为 简体 字 等 操作 ， 
才能 够 更 好 地 提高 分 词 算 法 的 性 能 。 常 用 的 中 文字 符 编码 为 GB 2312、Unicode、UTF-8 
等 ,其 中 GB 2312、Unicode、UTF-8 的 编码 原理 不 再 详 述 。 目 前 有 很 多 工具 实现 了 字符 编 
码 之 间 的 转换 ,比如 可 以 采用 文本 编辑 器 notepad 十 十 ,其 中 具有 ASCII 码 、.GB 2312、 
Unicode .UTF-8 等 编码 转换 的 功能 。 





开始 





对 句子 进行 短 句 切 分 
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4.2.2 基于 词典 的 分 词 方法 


基于 词典 的 分 词 方 法 . 即 通 过 设 定 词 典 ,按照 一 定 的 字符 串 匹 配方 法 ,把 存在 于 词典 中 
的 词 从 句子 中 切 分 出 来 。 该 方法 有 3 个 基本 要 素 , 即 分 词 词典 文本 扫描 顺序 和 匹配 原则 。 
由 于 词典 中 的 每 个 项 都 是 词汇 ,因此 一 般 分 词 词典 的 项 数 会 非常 大 , 称 为 充分 大 的 词典 ; 文 
本 的 扫描 顺序 有 正 向 扫描 、 逆 向 扫描 和 双向 扫描 ; 匹配 原则 主要 有 最 大 匹配 .最 小 匹配 、 逐 
词 匹配 和 最 佳 匹 配 。 因 此 ,基于 文本 扫描 顺序 和 匹配 原则 ,可 以 组 合 出 多 种 方法 ,如 正 向 最 
大 匹配 、 正 向 最 小 匹配 .逆向 最 大 匹配 .逆向 最 小 匹配 等 。 本 节 将 详细 介绍 正 向 最 大 匹配 法 ， 
并 简单 介绍 逆向 最 大 匹配 法 。 

所 谓 最 大 匹配 ,就 是 优先 匹配 最 长 词汇 , 即 每 一 句 的 分 词 结果 中 的 词汇 总 量 要 最 少 。 正 
向 最 大 匹配 分 词 在 实现 上 又 可 以 分 为 增 字 法 和 减 字 法 两 种 。 

正 向 减 字 最 大 匹配 法 ,首先 需要 将 词典 中 词汇 按照 其 长 度 从 大 到 小 的 顺序 排列 ,然后 对 
于 待 切 分 的 中 文字 符 串 , 做 如 下 处 理 。 

(1) 将 字符 串 和 词典 中 的 每 个 词汇 逐一 进行 比较 。 

(2) 如 果 匹 配 到 , 则 切 分 出 一 个 词汇 , 转 步 又 (5) 执 行 。 

(3) 否则 ,从 字符 串 的 末尾 减 去 一 个 字 。 

(4) 如 果 剩 下 的 字符 串 只 有 一 个 字 , 则 切 分 出 该 字 。 

(5) 将 剩 下 的 字符 串 作 为 新 的 字符 串 , 转 步 骤 (1) 执 行 ,直到 剩 下 的 字符 串 长 度 为 0。 

以 字符 串 “ 今 天 是 中 华人 民 共 和 国 获得 奥运 会 举办 权 的 日 子 ”为 例 来 说 明 上 述 过 程 。 假 
设 词 典 充分 大 。 每 次 与 词典 相 比较 的 字符 串 s 依次 如 下 ,可 见 在 第 20 次 比较 时 获得 词汇 
“今天 ”, 在 第 39 次 时 无 法 匹配 而 输出 单字 “是 ”。 











1]s= "今天 是 中 华人 民 共 和 国 获得 奥运 会 举办 权 的 日 子 " 
2]s= "今天 是 中 华人 民 共 和 国 获得 奥运 会 举办 权 的 日 " 
3]s = "今天 是 中 华人 民 共 和 国 获得 奥运 会 举办 权 的 " 


201s= "今天 " 
21]s = "是 中 华人 民 共 和 国 获得 奥运 会 举办 权 的 日 子 ” 
22]s = "是 中 华人 民 共 和 国 获得 奥运 会 举办 权 的 日 


3o]s = "是 " 
40]s = "中 华人 民 共 和 国 获得 奥运 会 举办 权 的 日 子 ” 


51]s = "中 华人 民 共 和 国 " 
52]s = "获得 奥运 会 举办 权 的 日 子 ” 





aiss "获得 " 


显然 ,算法 在 性 能 上 还 有 很 多 需要 改进 的 地 方 。 如 果 考 虑 到 词典 中 的 词 条 有 一 定 长 度 ， 
即 可 以 假设 最 长 词 包含 的 汉字 个 数 是 len, 则 最 大 正 向 匹配 算法 过 程 中 就 可 以 每 次 取 len 长 
度 的 字符 串 来 比较 。 因 此 ,每 次 与 词典 相 比较 的 字符 串 s 依次 如 下 (假设 len 一 7) 。 
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1]s= "今天 是 中 华人 民 " 





6]s=" 今 天" 
7]s= "是 中 华人 民 共和 


13]s = "是 " 
14]s = "中 华人 民 共和 国 " 
151s = "获得 奥运 会 举办 " 


20]s= "获得 " 
21]s = "奥运 会 举办 权 的 " 





除了 正 向 减 字 最 大 匹配 法 ,还 有 正 向 增 字 最 大 匹配 法 ,算法 思路 上 基本 类 似 , 只 是 采用 
逐步 增加 字符 的 方法 构成 新 的 字 串 ,再 去 匹配 。 如 果 词 典 中 的 词汇 长 度 大 部 分 都 比较 短 的 
话 ,采用 增 字 法 可 以 在 一 定 程度 上 减 小 算法 复杂 度 。 

逆向 最 大 匹配 法 是 另 一 类 基于 词典 的 切 分 方法 ,该 方法 的 分 词 过 程 与 正 向 最 大 匹配 法 
类 似 , 不 同 的 是 从 句子 末尾 开始 处 理 , 每 次 匹配 不 成 功 时 去 掉 的 是 前 面 或 左边 的 一 个 汉字 。 
同样 也 有 增 字 法 和 减 字 法 两 种 实现 方式 。 

按照 目前 一 些 语 料 的 词汇 切 分 实验 结果 ,逆向 最 大 匹配 的 切 分 方法 得 到 的 错误 率 是 
1/245 ,而 正 向 最 大 匹配 的 切 分 方法 的 错误 率 是 1/169, 切 分 中 的 错误 源 于 词汇 之 间 字 符 的 
重合 。 例 如 ,对 于 “局 长 的 房间 内 存储 贵重 的 黄金 "这 句 文 本 ,采用 正 向 最 大 匹配 扫描 得 到 的 
结果 是 “局 长 | 的 | 房间 | 内 存 | 储 | 贵重 | 的 | 黄金 ”, 得 到 错误 的 结果 ,而 采用 逆向 最 大 匹配 扫 
描 得 到 的 结果 是 “局 长 | 的 | 房间 | 内 | 存储 | 贵重 | 的 | 黄金 ”, 则 能 得 到 正确 结果 。 

尽管 目前 在 中 文 文本 的 切 分 方面 已 经 能 够 取得 99% 以 上 的 正确 率 ,但 是 由 于 词汇 切 分 
并 不 是 数据 分 析 的 最 终结 果 , 因 此 ,词汇 切 分 识别 中 的 错误 会 在 上 层 应 用 中 得 到 放大 ,而 造 
成 更 大 的 错误 。 例 如 ,上 面 的 句子 如 果 切 分 出 “内 存 " 这 个 词汇 ,那么 在 上 层 的 分 析 挖掘 应 用 
中 ,就 可 能 通过 语义 拓展 发 现 该 句子 与 计算 机 ”类 的 主题 相关 。 因 此 ,目前 还 有 不 少 研究 在 
试图 提升 词汇 切 分 的 准确 性 。 

在 基于 词典 的 分 词 方法 中 ,词典 对 于 分 词 算法 有 着 重要 的 影响 。 词 典 中 词汇 的 完整 性 ， 
词汇 在 词典 中 的 排列 顺序 、 专 业 词 汇 与 大 众 词汇 .词汇 的 长 度 、 新 词 ,以 及 词典 中 词汇 的 使 用 
频率 、 词 汇 的 索引 结构 等 都 会 对 分 词 算法 的 准确 性 和 效率 产生 很 大 影响 。 特 别 地 ,这 些 因 素 
的 影响 及 处 理 说 明 如 下 ,可 以 进一步 探讨 。 

(1) 针对 互联 网 大 数据 ,网 络 上 的 新 词 频繁 出 现 ,一 些 领 域 专业 词汇 也 都 是 典型 的 新 词 ， 
如 果 没 有 及 时 更 新 ,就 会 产生 很 多 的 单字 切 分 或 错误 。 因 此 ,词典 的 及 时 更 新 就 变 得 很 重要 。 

(2) 词典 中 的 词汇 排列 顺序 除了 前 面 按照 词汇 的 长 度 排 序 外 ,还 可 以 按照 词汇 的 使 用 
频率 来 排序 ,这 就 是 最 佳 匹配 的 方法 。 统 计 每 个 词汇 在 实际 使 用 中 的 频率 ,按照 从 高 到 低 的 
顺序 排序 词典 。 这 样 在 进行 切 分 时 ,经 常 使 用 的 词汇 能 够 快速 被 匹配 到 ,而 不 必 扫 描 整 个 词 
典 。 但 是 使 用 频率 的 统计 本 身 也 是 需要 有 一 定 的 语 料 , 这 些 语 料 可 以 是 来 自 人 工 切 分 结果 ， 
或 语言 学 的 研究 成 果 。 

(3) 考虑 多 种 排序 规则 相 结 合 的 可 能 性 .根据 语言 学 的 Zipf 定律 ,大 部 分 的 词汇 长 度 并 
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不 长 。 例 如 ,长 度 为 2 的 词汇 在 实际 使 用 中 就 很 多 .这 部 分 词汇 如 果 单 纯 按 照 长 度 来 决定 其 
在 词典 中 的 位 置 ,显然 是 不 合适 的 。 因 此 ,可 以 同时 考虑 其 使 用 频率 ,在 长 度 等 同 的 条 件 下 ， 
按照 使 用 频率 进行 排序 。 

在 词典 的 实现 层面 ,需要 考虑 到 更 多 因素 ,如 词典 很 大 以 至 于 无 法 一 次 性 装载 到 内 存 等 
问题 。 这 里 就 需要 采用 适当 的 索引 结构 。 常 用 的 词典 结构 有 有 序 线性 词典 结构 、 基 于 整 词 
二 分 的 分 词 词典 结构 、 基 于 TRIE 索引 树 的 分 词 词典 结构 等 若干 种 组 织 方式 。 

有 序 线性 词典 结构 是 最 简单 的 词典 结构 ,词典 正文 是 以 词 为 单位 的 有 序 表 , 初 始 化 时 读 
取 到 内 存 中 ,词典 正文 中 通过 整 词 二 分 进行 定位 。 这 种 词典 结构 算法 简单 ,易于 实现 .有效 
空间 使 用 率 高 ; 缺点 是 查找 效率 低 , 删 除 或 插入 的 更 新 代价 高 。 在 添加 新 闻 时 需要 移动 词 
典 中 的 词 条 来 保证 有 序 性 ,在 词典 相当 大 时 ,需要 花费 很 长 的 时 间 。 

基于 整 词 二 分 的 分 词 词典 结构 是 一 种 常用 的 分 词 词典 结构 。 其 结构 分 为 3 级 ,前 两 级 
为 索引 ,如 图 4-2 所 示 ,除了 存储 词汇 字符 串 外 ,还 需要 一 些 额外 的 标志 信息 。 














首 字 hash 表 | 十 计 i 亮 
入 口 项 个 数 | 904 1982 i 3603 
第 “项 指针 














词典 正文 指针 I 
词典 正文 | 古巴 | 古城 [古代 | 古怪 | 计 次 | 计算 … 


图 4-2 基于 整 词 二 分 的 分 词 词典 结构 
































词典 正文 是 以 词 为 单位 的 有 序 表 , 词 索引 表 是 指向 词典 正文 中 每 个 词 的 指针 表 。 通 过 
首 字 散 列表 的 哈 希 定位 和 词 索引 表 确 定 指定 词 在 词典 正文 中 的 可 能 位 置 范 围 ,进而 在 词典 
正文 中 通过 整 词 二 分 进行 定位 。 

基于 词典 的 分 词 算法 具有 方法 简单 ,易于 实现 等 优点 .同时 还 存在 着 较 多 缺点 ,如 匹配 
速度 慢 、 存 在 歧义 和 错误 切 分 、 没 有 统一 标准 的 词 集 、 没 有 自我 补充 自我 学 习 的 能 力 及 不 同 
词典 会 产生 不 同 的 歧义 。 


4.2.3 基于 统计 的 分 词 方法 


基于 统计 的 分 词 方法 ,其 主要 思想 为 : 词 是 稳定 的 组 合 。 在 统计 分 词 中 ,采用 了 各 种 方 
法 来 衡量 这 种 稳定 性 。 只 要 这 种 稳定 性 达到 一 定 程度 就 可 以 认为 是 一 个 词 .这 是 该 方法 区 
别 于 前 一 种 方法 的 主要 地 方 。 在 上 下 文中 , 相 邻 的 字 同 时 出 现 的 次 数 越 多 ,就 越 有 可 能 构成 
一 个 词 。 因 此 , 字 与 字 相 邻 出 现 的 概率 或 频率 能 较 好 反映 成 词 的 稳定 性 ,因此 ,在 统计 分 词 
中 就 需要 有 一 种 途径 来 计算 这 种 概率 的 大 小 。 

基于 统计 的 分 词 方法 的 实现 过 程 如 图 4-3 所 示 。 总 体 上 看 ,包含 了 建立 统计 模型 和 词 
语 切 分 判断 两 大 步骤 ,两 者 之 间 的 联系 是 统计 模型 。 可 见 , 统 计 模型 是 该 方法 的 核心 。 这 两 
个 步 又 的 执行 是 可 以 分 开 的 ,通常 先 对 给 定 的 训练 文本 建立 对 应 的 统计 模型 ,然后 基于 该 统 
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计 模 型 就 可 以 给 任意 输入 的 文本 进行 词汇 切 分 。 因 此 ,采用 这 种 方法 时 对 于 最 终 用 户 来 说 ， 
更 关注 的 是 第 二 个 步骤 的 复杂 度 。 
训练 文本 集合 待 分 词 文本 


总 


建立 统计 模型 










词语 切 分 判断 














图 4-3 统计 分 词 方 法 


统计 模型 ,也 称 为 语言 模型 。 在 统计 模型 中 ,自然 语言 被 看 作 是 一 个 随机 过 程 ,其 中 每 一 
个 语言 单位 ,包括 字 、 词 .句子 .段落 和 篇 章 等 都 可 被 看 作 是 有 一 定 概率 分 布 的 随机 变量 。 分 词 
方法 中 所 应 用 的 统计 模型 有 条 件 随 机 场 模型 CRF、 隐 Markov 模型 (HMM) 和 最 大 信 模 型 , 同 
时 还 有 经 典 的 N-gram 模型 ,随后 的 神经 网 络 模型 就 是 基于 N-gram 模型 构造 出 来 的 。 

对 于 分 词 来 说 ,基本 的 问题 可 以 用 数学 形式 化 表示 描述 如 下 。 

给 定 一 个 字符 串 re ,rw ,… ,rw ,计算 它 是 语言 词汇 的 概率 pCwi ,ws，… ,rw) ,根据 概率 
大 小 来 决定 是 否 为 词汇 。 而 该 概率 的 计算 ,按照 链 式 法 则 可 以 展开 如 下 : 


pw ra 0) =phw) X plws | za) X plws | wrtws) 


XX plw | wi We1) (4-1) 
要 注意 的 是 ,这 里 采用 了 简化 后 的 概率 表示 方法 ,而 完整 的 表示 应 当 是 : 
Plx1 = wisze = Wes T= Ww) 


式 中 ,zx; 表示 随机 变量 z 在 第 i 个 时 刻 的 取 值 。 

然而 ,要 对 式 (4-1) 进 行 计算 并 不 是 一 件 简单 的 事 。 主 要 体现 在 以 下 两 方面 。 

(1) 参数 空间 过 大 .难于 实用 化 ; 式 右边 的 每 个 因子 都 是 一 个 参数 , 当 词汇 数量 很 大 
时 ,这 些 参数 的 个 数 急 剧 增多 。 例 如 ,对 于 含有 100 个 不 同 字 的 训练 文本 来 说 , 户 (roz| rol) 表 
示 任 意 两 个 字 之 间 的 跳 转 概率 ,就 需要 有 100X 100 个 参数 ,而 pCws|wn ,ws) 则 需要 100X 
100X 100 个 参数 。 因 此 随 着 词汇 长 度 的 增加 ,模型 的 参数 个 数 会 急剧 增多 。 

(2) 数据 稀疏 严重 , 即 虽然 有 很 多 参数 ,但 是 这 些 参 数值 很 多 都 是 0 值 ,特别 是 那些 高 阶 
参数 ,这 是 由 于 实际 用 于 计算 这 些 概率 的 文本 数量 有 限 ,同时 语言 学 的 Zipf 定律 也 决定 了 这 个 
结果 。 而 这 些 概率 为 0 的 参数 导致 了 在 实际 进行 分 词 概率 计算 时 结果 都 为 0, 这 就 很 不 合理 。 

为 了 解决 以 上 问题 ,可 以 引入 马尔 科 夫 假设 , 即 一 个 词 的 出 现 仅 依赖 于 它 前 面 出 现 的 一 
个 或 者 有 限 的 几 个 词 。 这 种 假设 ,就 是 限定 值 的 一 种 模型 ,在 实际 中 可 以 是 大 于 等 于 1 
的 整数 。 这 种 限定 之 后 的 计算 方法 就 是 N-gram 模型 。 这 种 模型 在 文本 数据 分 析 挖掘 中 有 
广泛 的 应 用 ,而 不 仅仅 局 限于 这 里 的 统计 分 词 。 

把 式 (4-1) 写 成 与 n 相关 的 等 式 : 

pwi) = pw) plws | wi)plws | wh) plw, | wir!) (4-2) 

此 处 ,用 wr" 表示 个 字 / 词 组 成 的 字符 串 。 

根据 的 不 同 取 值 ,N-gram 模型 还 有 一 些 专 有 的 称呼 , 当 xz 一 1 一 2 一 3 时 ,N-gram 
模型 又 分 别称 为 Unigram、Bi-gram、Trigram。 不 同 的 n 所 需要 的 模型 参数 也 是 有 很 大 差 
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别 。 例 如 ,对 于 一 个 有 2000 个 不 同 字 的 文本 ,N-gram 需要 的 参数 数量 如 表 4-1 所 示 。 
表 4-1 N-gram 的 参数 数量 


























模型 名 称 模型 参数 个 数 
Unigram( 一 元 ) 2000 
Bi-gram( 二 元 ) 2000X2000 
Trirgram( 三 元 ) 2000? x 2000 
Fourgram( 四 元 ) 20003 X2000 





从 表 4-1 中 可 以 看 到 , 随 着 n 值 增长 ,模型 的 参数 空间 呈 指 数 增长 ,训练 需要 更 加 庞大 
的 语 料 ,数据 稀疏 更 加 严重 ,时 间 复 杂 度 更 高 。 所 以 ,在 实际 应 用 中 ,通常 采用 低 阶 模型 ,应 
用 最 多 的 为 Bi-gram 和 Tri-gram。 

如 果 一 个 词 或 字 的 出 现 仅 仅 依 赖 于 它 前 面 出 现 的 两 个 词 或 字 , 即 Tri-gram 模型 ,相应 
的 概率 计算 如 下 : 

pi)= pw pw | wi) plws | wh) plwn | wr) 
pw) plws | wplws | ware) phn | zolirzor2) (4-3) 

利用 统计 模型 进行 词语 切 分 ,最 基本 的 任务 是 计算 出 一 定 长 度 的 字符 串 出 现 的 概率 , 当 其 
大 于 一 定 阔 值 或 满足 一 定 条 件 时 ,可 以 得 到 切 分 的 词汇 。 对 于 输入 的 文本 串 , 首 先 要 决定 取 多 
少 个 字 的 组 合 来 计算 概率 值 , 这 就 要 依赖 于 一 个 参数 , 即 词汇 的 最 长 长 度 len。 假 设 len 二 4, 则 
针对 “计算 机 机 房 ”, 假 如 采用 从 正 向 扫描 ,第 一 轮 需要 计算 p( 计 算 ).p( 计 算 机 )、p( 计 算 机 机 ) 
3 个 概率 值 , 按 照 概率 值 最 大 并 且 大 于 一 定 阔 值 的 原则 ,选择 这 轮 应 当 切 分 出 来 的 词汇 。 如 果 
输入 的 是 “的 计算 机 机 房 ", 则 会 因为 概率 值 都 达 不 到 阔 值 要 求 ,而 切 分 出 单字 “的 ”。 

由 上 述 例子 和 式 (4-2) 可 知 ,在 进行 概率 计算 之 前 ,需要 先 将 公式 右边 的 参数 先 求 出 来 ， 
这 个 过 程 就 是 建立 统计 模型 ,是 一 个 类 似 于 训练 的 过 程 。 

下 面 以 Bi-gram 模型 为 例 , 介 绍 统计 分 词 方法 的 统计 模型 建立 方法 。 

假设 训练 语 料 如 下 (其 中 < BOS > 和 < EOS > 表示 句子 开始 和 结束 ,也 当 作 一 种 随机 变量 
处 理 ) : 


< 了 BOS > 我 喜欢 读书 < EOS > 


<B0S> 他 喜欢 在 复旦 学 习 <EOS> 
<B0S> 她 喜欢 在 图 书馆 读书 <E0S> 


通过 Bi-gram 模型 训练 .部 分 参数 如 下 。 





_ ce<BOS> 我 )_ 1 
p( 我 1<BOS>) = SS2 我 ) 一 了 (下 村 
《我 可 
/ 喜 | 我 ) = c 生 训 一 1 Cd-5y 
直 欢 
p( 欢 | 喜 ) = < 区 一 1 (4-6) 
p( 在 | 欢 ) = < 次 在 ) 2 (4-7) 


c( 欢 ) 3 
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假如 词汇 的 最 长 长 度 为 2, 那 么 对 文本 串 “ 你 喜欢 在 哪里 学 习 ?” 进 行 分 词 时 ,分 别 计算 
概率 : p(< BOS> 你 )、p( 你 喜 ) 、p( 喜 欢 ) 等 二 元 概率 ,如 果 假 设 词汇 的 最 长 长 度 为 3, 除了 二 
元 概率 外 ,还 需要 计算 概率 p(< BOS > 你 喜 )、p( 你 喜欢 ) 等 三 元 概率 。 这 些 数值 对 于 Bi- 
gram 来 说 需要 展开 转换 成 为 二 元 概率 。 例 如 : 

Pp( 喜 欢 你 ) 二 p( 你 | 欢 )p( 欢 | 喜 )p( 喜 ) 

最 终 根据 计算 出 来 的 概率 大 小 ,决定 最 合适 的 切 分 结果 。 

从 这 个 例子 可 以 看 出 ,模型 训练 时 的 二 元 概率 准确 性 对 分 词 结果 有 直接 影响 。 一 般 来 
说 ,需要 有 充足 的 语 料 , 才 能 确保 概率 计算 的 准确 性 。 否 则 就 会 出 现 * 我 喜 " 这 种 概率 为 1 的 
组 合 ,以 及 “看 书 " 这 种 概率 为 0 的 词汇 。 也 可 以 看 出 , 相 比 于 基于 词典 的 分 词 方法 ,基于 统 
计 的 分 词 方法 具有 一 定 的 优势 , 它 不 受 待 处 理 文本 的 领域 限制 ,只 要 有 相应 的 训练 文本 即 
可 ; 能 够 通过 上 下 文 识别 新 词 消 除 歧义 等 。 

基于 统计 的 分 词 方 法 也 存在 着 不 足 , 统 计 模 型 需要 大 量 的 语 料 进 行 训练 ,用 以 建立 统计 
模型 的 参数 ; 计算 量 非常 大 ; 对 常用 词 的 识别 精度 差 , 并 且 分 词 精 度 与 训练 文本 的 选择 有 
关 ; 经 常 抽 取出 一 些 贡 献 频 度 高 ,但 是 不 是 词 的 常用 字 组 ,如 “这 一 “有 的 ”等 。 

所 以 ,基于 统计 的 分 词 方法 在 实际 应 用 中 ,会 使 用 一 部 分 基本 的 常用 词典 进行 匹配 分 
词 ,能 够 利用 匹配 分 词 的 速度 快 .效率 高 的 优点 ,同时 消除 一 些 不 是 词 的 常用 字 组 。 


4.2.4 歧义 处 理 


在 文本 分 词 的 结构 化 处 理 过 程 中 ,可 能 会 产生 一 些 歧义 的 字符 串 , 而 歧义 处 理 就 是 识别 
出 这 些 歧 义 字 符 串 并 进行 消除 的 过 程 。 

对 于 歧义 处 理 , 一 般 就 是 先 对 歧义 问题 进行 归 类 ,再 针对 每 个 类 别提 出 相应 的 解决 方 
法 。 中 文中 的 歧义 问题 通常 分 为 三 类 , 即 交 集 型 歧义 .组 合 型 歧义 和 真 歧义 。 

(1) 交集 型 歧义 是 指 汉字 字符 串 具 有 AJB 形式 ,并 且 AJ 和 JB 都 是 一 个 汉语 词汇 ,此 
时 的 汉字 子 串 丁 称 为 交集 串 。 汉 字 串 中 所 包含 的 交集 串 个 数 , 称 为 交集 型 歧义 的 链 长 。 例 
如 ,“ 正 方形 "中 的 “正方 “方形 ”都 可 以 成 词 , 其 链 长 为 1;“ 结 合成 分 "中 “结合 “合成 “成 
分 "都 可 以 成 词 。“ 结 合成 “合成 分 "是 其 中 的 两 个 交集 歧义 串 , 因 此 链 长 为 2。 

(2) 组 合 型 歧义 是 指 如 果 汉 字 字 符 串 AB 是 一 个 词汇 ,但 是 在 文本 中 至 少 存 在 一 个 前 
后 语 境 C, 使 得 在 语 境 C 的 约束 下 . 切 分 后 的 A、B 在 语法 和 语义 上 都 成 立 , 那 么 称 汉 字 串 
AB 为 多 义 组 合 型 歧义 字段 。 目 前 研究 人 员 总 结 出 来 一 些 典 型 的 会 引起 组 合 型 歧义 的 词 
汇 ,如 “将 来 “一 起 “才能 “书写 “马上 ”“ 正 当 ”“ 中 将 “把 手 ” 等 。 一般 认 为 ,组 合 歧义 字段 
的 出 现 都 依赖 于 特定 的 语 境 , 切 分 开 与 不 切 分 开 的 词义 不 同 。“ 将 来 的 社会 “他 明年 将 来 上 
海 " 这 两 个 句子 中 的 “将 来 "两 个 字 是 否 切 开 与 语 境 有 关 。 此 外 , 像 “ 一 起 网 络 违 法 案件 ”和 
“我 们 一 起 高 歌 吧 ” 中 的 “一 起 ”也 是 类 似 的 问题 。“ 别 把 手 伸 进 别人 的 口袋 里 ”这 里 的 “把 手 ” 
也 是 应 当 切 分 的 。 

(3) 真 歧义 , 即 如 果菜 一 歧义 字段 ,不 结合 其 他 信息 ,人 们 也 无 法 判断 出 其 正确 的 切 分 
方式 , 则 称 其 为 真 歧义 字段 。 典 型 的 例子 是 “乒乓 球拍 卖 完了 ”这 个 句子 , 它 可 以 切 分 成 “ 乒 
乓 /球拍 / 卖 / 完 / 了 ”乒乓 球 /拍卖 / 完 / 了 ”。 没 有 结合 其 他 信息 ,显然 我 们 无 法 知道 正确 的 
切 分 方式 。 

目前 ,歧义 处 理 主要 集中 在 对 交集 型 歧义 字段 和 组 合 型 歧义 字段 的 处 理 上 , 据 统计 , 交 
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集 型 歧义 占 到 总 歧义 字段 的 86%, 所 以 在 歧义 发 现 和 歧义 消除 工作 中 的 重点 是 如 何 识 别 并 
消除 交集 型 歧义 。 常 用 的 交集 型 歧义 字段 发 现 算法 包括 双向 最 大 匹配 扫描 法 、 逐 词 扫描 的 
最 大 匹配 算法 ,以 及 最 长 词 次 长 词 算法 、 正 向 最 大 匹配 十 回 退 一 字 算 法 等 。 每 种 算法 都 有 其 
各 自 的 发 现 原理 ,并 且 对 歧义 字段 的 发 现 效果 也 不 相同 。 

双向 最 大 匹配 扫描 法 是 对 同一 字符 串 ,分别 采用 正 向 最 大 匹配 和 逆向 最 大 匹配 两 种 方 
法 来 切 分 文本 ,如 果 得 到 的 结果 一 样 , 则 认为 切 分 正确 ,否则 认为 存在 歧义 字段 。 

例如 :“ 局 长 的 房间 内 存储 黄金 ”。 

正 向 匹配 结果 :“ 局 长 /的 /房间 /内 存 / 储 /黄金 ”。 

逆向 匹配 结果 :“ 局 长 /的 /房间 /内 /存储 /黄金 ”。 

这 样 就 发 现 了 歧义 字段 “内 存储 ”的 存在 ,但 该 算法 只 能 识别 出 交集 型 歧义 。 对 于 组 合 
型 歧义 , 则 需要 在 语法 和 语义 层面 上 ,根据 语法 规则 进行 歧义 的 发 现 , 即 组 合 字段 切 分 后 词 

例如 ,“ 才 能 ”是 名 词 或 副词 ,而 切 分 后 " 才 ” 是 副词 “能 "是 动词 ;“ 一 起 ”常常 作为 副词 ， 
切 分 后 "一 ”为 数 词 ,“ 起 ”是 量词 。“ 他 的 才能 得 到 了 最 大 发 挥 " 句 子 中 ,由 于 “才能 ”前面 是 
“的 ”, 从 语法 上 看 后 面 需 要 一 个 名 词 , 就 不 能 切 分 。 而 “努力 学 习 才 能 进步 ”也 需要 从 语法 上 
分 析 。 总 之 ,通过 组 合 字段 切 分 后 词性 发 生变 化 是 发 现 组 合 型 歧义 的 一 种 方法 。 

发 现 歧义 后 , 接 下 来 就 是 要 进行 歧义 消解 工作 。 歧 义 消解 主要 分 为 两 种 方法 : 一 种 是 
基于 规则 的 分 词 消 歧 ; 另 一 种 是 基于 统计 方法 的 分 词 消 歧 , 也 可 以 是 这 两 种 方法 的 组 合 , 即 
基于 规则 消 歧 无 效 时 ,使 用 基于 统计 的 方法 进行 消 歧 。 

基于 规则 的 分 词 消 歧 , 采 用 语义 .语法 或 者 词性 等 规则 对 歧义 字段 进行 消 歧 。 这 是 一 种 
启发 式 方法 ,需要 先 验 知识 。 

常用 的 消 歧 规则 有 以 下 几 条 。 

(1) 语言 规则 : 词性 的 结合 顺序 。 例 如 ， 将 来 "的 前 驱 为 人 名 或 人 称 代 词 时 , 切 分 开 。 

(2) 语料库 中 词 频 越 高 的 越 易 于 成 词 。 

(3) 尽量 不 切 分 长 词 。 

(4) 道 向 最 大 匹配 优先 。 

基于 统计 方法 的 分 词 消 歧 ,通过 求 歧义 字段 中 某 些 词 出 现 的 概率 , 某 种 切 分 方式 的 概率 
等 一 些 概率 值 ,来 对 歧义 进行 划分 。 常 用 的 方法 如 概率 消除 法 信息 等 方法 ,能 够 对 歧义 
进行 消解 。 这 种 消除 歧义 方法 ,需要 选择 一 个 合适 的 语 料 。 

以 下 是 基于 频次 的 消 歧 算法 。 

由 浆 个 汉字 组 成 的 歧义 切 分 字段 C=cicz…cn ,有 两 种 切 分 结果 , 即 机 =zoiroz…z 和 





下 k La 
V=um…w。 若 [][ fralwi) > 工 frqaGw), 则 选择 切 分 结果 为 W。 车 [| fraCwi) 二 
i=1 j=1 1 一 1 


A 
了 fracw) , 则 选择 切 分 结果 为 V。 
| 


其 中 ,frq(w) 表 示 词 w 的 频率 ; frq(v) 表 示 词 v 的 频率 。 

单纯 使 用 词 频 信息 ,对 于 低频 字 则 不 会 正确 切 分 。 例 如 ,他 /的 /确切 / 菜 / 了 ?中 必 的 ” 
为 高 频 词 汇 ,并 且 “ 的 /确切 ”的 频次 高 于 “的 确 / 切 ”, 则 会 错误 切 分 。 

该 算法 仅 用 词 频 , 没 有 考虑 词性 、 词 义 及 不 同 词性 之 间 的 概率 转移 关系 ,所 以 可 以 将 其 
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改进 为 : 用 词性 标注 方法 分 别 对 两 种 切 分 计算 概率 值 , 选 择 最 大 。 





以 下 是 基于 互信 息 的 消 歧 算法 。 
互信 息 可 以 反映 汉字 之 间 结 合 关 系 的 紧密 程度 .对 有 序 汉字 串 xy, 汉字 z、y 之 间 的 互 
信息 定义 为 : 
TCziy) = logs| 区] (4-8) 


式 中 ,p(xz,y) 是 zy 的 邻接 同 现 频率 ; p(x)、p(y) 分 别 表示 xz、y 的 独立 概率 。 

(1) 当 I(z;y)>0 时 , 则 plz,y) 亿 p(xz)p(y), 此 时 xz、y 之 间 具 有 可 信 的 结合 关系 ,并 
且 I(z;y) 越 大 ,结合 度 越 强 。 

(2) 当 ITzr;y) 守 0 时 , 则 p(xz,y) 宅 p(X)p(y) ,此 时 zy 之 间 的 结合 关系 不 明确 。 

(3) 当 ICzr;y)<0 时 , 则 p(x,y)<p(z)p(y), 此 时 x、y 之 间 基 本 没有 结合 关系 ,并 且 
I(z;y) 越 小 ,结合 度 越 强 。 

传统 利用 互信 息 进行 歧义 切 分 ,可 以 找到 两 个 字 之 间 结 合力 的 绝对 度量 ,但 在 I(x;y) 守 0 
时 ,两 个 字 的 结合 很 难 仅 依靠 互信 息 得 到 ,必须 参照 一 定 的 上 下 文 。 对 于 组 合 型 歧义 来 说 ， 
目前 研究 人 员 已 经 总 结 出 了 一 些 经 常 出 现 的 组 合 型 歧义 字符 串 , 因 此 对 于 此 类 问题 的 识别 
判断 也 起 到 了 一 定 作用 。 

在 中 文 分 词 的 研究 中 ,人 们 在 歧义 处 理 的 方法 上 已 经 有 了 很 大 的 进步 ,分 词 的 精度 和 速 
度 都 有 了 一 定 的 提高 。 可 以 看 出 ,在 切 分 过 程 中 考虑 歧义 问题 ,需要 对 汉字 串 进 行 多 次 扫 
描 , 产 生 了 很 大 的 计算 复杂 度 。 但 是 目前 还 没有 一 种 方法 能 够 完全 解决 所 有 种 类 歧义 消解 
的 任务 ,并且 不 同 算法 也 各 有 优 劣 。 


4.3 词性 识别 


词性 是 用 来 描述 一 个 词 在 上 下 文中 的 作用 .词性 标注 就 是 根据 句子 上 下 文中 的 信息 给 
句子 中 每 个 词 一 个 正确 的 词性 标记 , 即 要 确定 每 个 词 是 名 词 动词 .形容词 或 其 他 词性 。 词 
性 标注 是 文本 处 理 的 重要 基础 ,在 大 数据 语义 .语言 合成 .语料库 加 工 、 信 息 检 索 等 领域 中 ， 
词性 标注 是 一 个 重要 部 分 。 例 如 ,在 信息 检索 中 ,能 够 利用 词性 标注 实现 词义 消 歧 ,减少 模 
糊 查询 ,提高 搜索 引擎 的 效果 和 效率 。 在 网 络 与 情 分 析 中 ,名 词 动词 ,形容 词 等 实 词 所 起 到 
的 作用 更 大 。 

词性 标注 作为 文本 处 理 领 域 中 的 基础 ,目前 进行 词性 标注 的 方法 主要 有 基于 规则 的 方 
法 、 基 于 统计 的 方法 及 规则 和 统计 相 结 合 的 方法 。 


4.3.1 词性 标注 的 难点 


词性 标注 的 难点 是 由 词性 兼 类 引起 的 .词性 兼 类 是 自然 语言 中 的 一 个 词语 的 词性 不 只 
有 一 个 的 语言 现象 。 例 如 .“ 他 在 医学 院 学 习 ”,“ 他 的 学 习 成 绩 逐 步 提 高 ”, 第 一 个 句子 “学 
习 ” 是 一 个 动词 ,而 第 二 个 句子 中 “学 习 ” 是 一 个 名 词 。 

词性 兼 类 在 中 文 文字 中 很 突出 , 据 不 完全 统计 ,常见 的 词性 兼 类 有 多 种 表现 形式 ,它们 
具有 的 特征 如 下 。 

(1) 兼 类 词 的 数量 不 多 , 占 总 词 条 的 5% 一 11%%。 
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(2) 兼 类 词 的 使 用 频率 很 高 , 占 总 词 次 的 40% 一 452%% 。 

(3) 兼 类 词 现 象 分 布 不 均 , 经 常 出 现 于 动 名 兼 类 、 形 动 兼 类 等 中 。 在 清华 大 学 孙 茂 松 教 
授 等 人 的 统计 中 , 动 名 兼 类 占 全 部 兼 类 现象 的 49. 8%, 而 在 哈尔滨 工业 大 学 张 民 博 士 的 统 
计 中 , 动 名 兼 类 和 形 副 兼 类 就 占 全 部 113 种 兼 类 现象 的 62. 5%。 

词性 兼 类 除了 在 中 文中 很 普遍 外 ,在 英文 中 也 很 普遍 。 一 些 典型 的 词汇 ,如 time, like 
都 具有 两 个 词性 ,DeRose 对 Brown 语料库 进行 统计 ,发 现 只 有 一 个 词性 的 词 有 35 340 个 ， 
具有 两 个 词性 的 词 有 3764 个 ,具有 3 个 词性 的 词 有 264 个 ,4 个 以 上 的 有 76 个 。 

可 以 看 出 ,虽然 兼 类 词 出 现 的 比例 并 不 高 ,但 是 它们 在 常用 词 中 出 现 的 比例 很 高 ,因此 
实际 中 常用 词 的 词性 兼 类 现象 很 严重 。 所 以 ,词性 标注 的 难点 和 挑战 就 在 于 给 兼 类 词 正确 
地 标注 词性 。 


4.3.2 基于 规则 的 方法 


基于 规则 的 方法 的 核心 思想 是 根据 具体 的 上 下 文 结构 框架 ,套用 语言 学 家 总 结 的 语言 
学 规则 来 判定 兼 类 词 词性 。 该 方法 是 一 种 传统 的 方法 ,获取 的 规则 集 精 度 直接 影响 标注 结 
果 的 优 劣 ,并 且 它 能 充分 利用 现 有 的 语言 学 成 果 , 总 结 出 许多 有 用 的 规则 。 基 本 做 法 是 : 先 
利用 词典 对 语 料 进行 基本 切 分 和 标注 . 列 出 该 对 象 所 有 可 能 的 词性 ,然后 根据 上 下 文 信息 ， 
结合 规则 库 排除 不 合理 的 词性 ,最 终 保留 唯一 合适 词性 。 

基于 规则 的 方法 既 可 以 适用 于 英文 ,也 可 以 适用 于 中 文 。 对 于 英文 来 说 ,英语 语法 规则 
包含 两 类 , 即 词汇 信息 规则 和 上 下 文 规则 。 前 者 用 于 对 未 知 词 的 处 理 ,后 者 用 于 初始 标注 后 
的 进一步 标注 处 理 。 例 如 ,以 下 是 两 条 规则 。 

(1) 如 果 单 词 以 "ly" 结尾 , 则 标记 为 Adverb。 

(2) 如 果 单 词 出 现在 "Mr. ”的 右边 , 则 标记 为 Proper noun( 专 有 名 词 ) 。 

对 于 中 文 而 言 : 也 有 大 量 此 类 规则 ,主要 是 在 词性 的 层面 上 考虑 。 例 如 ,常见 的 词性 拱 
配 规 则 有 形容 词 十 名 词 (adj 十 n)、 动 词 十 名 词 (v 十 n)、 量 词 十 名 词 (m 十 n)、 副 词 十 动词 
(adv 十 Vv) 等 。 

例如 ,对 于 “专心 学 习 ” 和 “学 习 知 识 ” 中 “学 习 ” 的 词性 标注 。 

步骤 1:“ 专 心 ”根据 词典 判定 为 单 性 词 副词 “知识 ”根据 词典 判定 为 单 性 词 
名 词 。 

步 又 2:“ 学 习 " 根 据 词 典 判 定 为 兼 类 词 名 词 动词 。 

步骤 3: 根据 预 设 语言 学 规则 a: adv 十 v, 判 断 “ 专 心 学 习 ” 中 的 “学 习 ” 为 动词 。 

步骤 4: 根据 预 设 语言 学 规则 b: v 十 n, 判 断 “ 学 习 知 识 ” 中 的 “学 习 ” 为 动词 。 

在 中 文 和 英文 中 运用 基于 规则 的 方法 进行 词性 识别 ,看 起 来 简单 、 容 易 实现 ,但 是 决定 
其 性 能 的 关键 要 素 是 规则 库 的 构成 。 与 一 般 规则 系统 存在 的 问题 一 样 ,规则 的 完整 性 一 致 
性 都 是 这 种 方法 面临 的 问题 。 例 如 ,前 面 示例 的 步骤 4, 也 同 能 会 匹配 到 规则 n 十 n, 因 此 有 
两 种 结果 。 此 外 ,规则 的 粒度 粗细 也 是 要 考虑 的 因素 。 如 果 规 则 描述 过 细 , 词 性 标注 的 正确 
率 可 提高 ,但 是 规则 的 覆盖 面 就 会 大 大 减 小 ; 如 果 使 覆盖 面 增 大 ,必然 要 以 降低 正确 率 为 
代价 。 

上 例 为 简单 的 基于 规则 的 词性 标注 方法 ,而 基于 规则 的 词性 标注 表达 清晰 ,应 用 范围 较 
广 , 但 是 不 能 通过 机 器 学 习 来 自动 获取 规则 ,人 工 构造 规则 是 非常 耗 时 的 ,所 以 实际 应 用 中 
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常常 采用 基于 统计 的 方法 或 统计 与 规则 相 结合 的 方法 进行 词性 标注 。 

在 规则 系统 中 ,一般 要 考虑 规则 的 优先 级 ,可 以 充分 利用 统计 方法 来 进行 优先 级 的 设 
置 。 例 如 ,利用 统计 的 方法 找 出 搭配 频率 出 现 较 高 的 规则 ,赋予 高 优先 级 ,避免 不 经 常 出 现 
的 搭配 规则 一 直 不 被 采用 ; 不 常 出 现 的 规则 ,也 适当 赋予 较 高 的 优先 级 。 


4.3.3 基于 统计 的 方法 


最 大 概率 标注 法 就 是 一 种 简单 的 统计 标注 方法 , 它 将 兼 类 词 赋予 可 能 性 最 大 的 词性 ,而 
这 种 可 能 性 是 通过 对 大 量 语 料 统计 得 到 ,反映 了 词汇 作为 某 一 种 词性 来 使 用 的 程度 。 这 种 
方法 没有 考虑 到 词汇 的 上 下 文 , 自 然 标注 准确 率 不 高 。 也 即 基于 统计 的 方法 是 取 大 概率 事 
件 , 并 没有 考虑 小 概率 的 特殊 事件 ,必然 会 降低 标注 的 正确 率 ,这 也 是 此 类 方法 最 主要 的 问 
题 ,因此 才 会 有 统计 与 规则 相 结合 的 思路 。 

在 基于 统计 的 方法 中 ,所 选择 的 统计 模型 不 同 ,所 能 得 到 的 标注 准确 性 也 有 很 大 差异 。 
在 词性 标注 中 ,常用 的 统计 模型 有 N-gram 模型 \ 隐 马尔 科 夫 模型 (Hidden Markov Model， 
HMM) 等 ,本 节 在 此 详细 介绍 隐 马 尔 科 夫 模型 。 

基于 统计 的 方法 的 基本 步骤 如 下 。 

(1) 制定 词性 标记 集 。 

(2) 选取 部 分 自然 语 料 进行 人 工 词 性 标注 。 

(3) 利用 统计 理论 进行 运算 建立 统计 模型 。 

(4) 根据 统计 模型 进行 词性 标注 。 

马尔 科 夫 模型 用 来 描述 随机 过 程 ,假设 存在 一 个 随机 变量 序列 ,满足 条 件 : 每 个 随机 变 
量 取 值 之 间 并 非 相 互 独立 ; 每 个 随机 变量 的 值 只 能 依赖 序列 中 前 面 的 数值 变量 。 则 可 以 做 
出 假设 : 可 以 基于 现在 的 状态 预测 将 来 的 状态 而 不 需要 考虑 过 去 的 状态 , 即 假设 X= (x1， 
Zs， ,是 一 个 取 值 为 S 二 (51,s2，… sn) 的 随机 变量 序列 ,马尔 科 夫 模型 的 性 质 如 下 。 

(1) :十 1 时 刻 的 状态 分 布 只 与 1 时 刻 有 关 , 即 P(zH 一 wmvz，…zr) 一 PCzH 一 sz) 

(2) 状态 转移 概率 与 时 间 无 关 , 即 PCzir 一 szo) 王 PCzs 一 szi) 

随机 变量 序列 X 称 为 一 个 马尔 科 夫 链 , 该 模型 为 马尔 科 夫 模型 。 并 且 随 机 转移 矩阵 
A={ai Gy 一 1.2,…,N) 可 以 用 来 描述 马尔 科 夫 链 , 即 


ajy = P(xzm = 5s; | x = 5) 





N 
其 中 a 宇 0,Vi,j, 并 且 了)as = 1,Vi。 
J 
同时 ,马尔 科 夫 链 中 不 同 初始 状态 公式 可 以 表示 为 : 
Ni = P(x = s;) (4-9) 
在 马尔 科 夫 模型 中 ,每 个 状态 都 是 可 见 的 ,而 将 马尔 科 夫 模型 中 的 状态 变 为 对 外 界 不 
可 见 时 , 则 转化 为 隐 马 尔 科 夫 模型 。 隐 马尔 科 夫 模型 可 以 理解 为 这 个 马尔 科 夫 模型 的 内 部 状 
态 , 外 界 是 不 可 见 的 ,而 外 界 只 能 看 到 各 个 时 刻下 每 个 不 可 见 状态 上 的 输出 值 .因此 , 隐 马 尔 
科 夫 模型 可 以 由 一 个 五 元 组 来 表示 . 即 (S.V. [[ .A.B)。 
其 中 ,S = (5 ,ss，… ,sw) 表示 状态 集合 ; V 二 {vi ,vo,… ,vu) 表示 输出 值 的 集合 ; [| 表 
示 初 始 状 态 ;A = {as}(i,j = 二 1,2,…,NN) ,aj 一 Pro 二 5; | xz, 二 $5;) 表示 状态 转移 概率 ; 
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B= {br}(G = 1,2,……,N,k =1,2,…,M) ,ba 二 P(o, = ks | zx: 二 5;) 表示 输出 字符 概率 。 
这 里 ,X= (zz …,z} 为 状态 序列 ;: 0 三 {01,02，…,01) 为 输出 序列 ,后 者 为 可 见 





状态 。 
在 词性 标注 中 .假设 W 是 分 词 后 的 词汇 序列 ,T 是 W 的 某 个 可 能 的 词性 序列 ,其 中 工 
为 最 终 的 标注 结果 , 即 概率 最 大 的 词性 序列 ,也 就 是 选择 最 可 能 的 词性 序列 。 

机 一 (zyros rom),T 一 (yt ,lm), 则 要 求解 的 词性 序列 满足 下 面 的 式 子 。 

T* = argmaxP(T | W) (4-10) 

然而 ,由 于 词性 个 数 比 较 大 , 当 词 汇 序列 比较 长 的 情况 下 ,通过 组 合 各 种 词性 来 构造 词 
性 序列 , 解 空 间 太 大 ,显然 不 是 解决 问题 的 方法 。 

对 式 (4-10) 的 求解 ,首先 根据 贝 叶 斯 (Bayes) 公 式 展开 : 
PCTYPOW | 了》 











P(T|W)= PW) (4-11) 
则 有 

T* argmax A 1D (4-12) 
由 于 对 于 给 定 的 词 序列 ,其 词 序列 概率 P(W) 对 于 任意 一 个 标记 序列 都 是 相同 的 , 则 

T* = argmaxP(T)P(W | T) (4-13) 


利用 N-gram 假设 , 则 有 
PCT)P(W | T) = pp | ed) pw | awe) pl | tti) (4-14) 
i=2 
基于 Bi-gram 模型 , 则 有 


pw | litti) = plwi | 42) (4-15) 
plti | binti) = plti | ti) (4-16) 
所 以 
T* = argmax pl) pl | 0) [plwi | i) pl | ta) (4-17) 
i=2 


式 中 ,p(wi | 4) 为 词性 4 的 词 w; 的 概率 ; p(i; |1i1) 为 词性 二 到 词性 4; 的 转移 概率 ; 
p(n) 是 句子 中 第 一 个 词性 概率 ; 这 些 称 为 模型 参数 ,分 别 对 应 于 五 元 组 中 的 A、B 矩阵 和 
工 [ .这 些 参 数 需要 基于 含有 人 工 词性 标注 的 语 料 , 利 用 最 大 似 然 估 计 从 相对 频率 角度 计算 
这 两 个 概率 , 即 


Cvwiti) 





plw:i | 4i) = ey (4-18) 

plti | ti1) = 人 (4-19) 
Bl 

二 全 OS 0 (4-20) 


式 中 ,clwi,14i) 为 词 w; 词性 4; 在 语 料 中 出 现 的 次 数 ; c(1;) 为 词性 4 的 出 现 次 数 ; 
cbti-1w4) 为 相 邻 两 个 词性 ti_i ti 的 次 数 ; < BOS > 表示 句子 开始 标志 。 

HMM 模型 理论 中 给 出 了 一 个 著名 的 Viterbi 算法 来 求解 这 个 最 优 的 隐 状 态 序列 , 即 
式 (4-17) 的 解 。 
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下 面 的 示例 给 出 了 利用 统计 方法 来 确定 最 终 的 词性 ,假设 词汇 序列 和 词性 序列 如 下 ,其 
中 “要 求 " 有 两 个 词性 需要 进行 选择 。 





人 民 (n, 非 兼 类 词 ) 的 (u, 非 兼 类 词 ) 要 求 (n/v, 兼 类 词 ) 与 (c, 非 兼 类 词 ) 愿望 (n, 非 兼 类 词 ) 


假设 ,从 训练 语 料 中 得 到 HMM 模型 的 部 分 参数 如 下 。 


六 Ee EA | 
uy 


re cCu:v) 


clu) 


0.07 


(要 求 | m = 《要求 ;9) _ 0 0011 
c(n) 


p( 要 求 | v) 二 “要求 ,y) _ 0.0022 
c(v) 


这 种 情况 下 ,相当 于 有 两 条 词性 序列 , 即 nuncn 和 nuvcn。 按 照 HMM 的 思路 ,就 是 判 
断 两 条 序列 的 概率 大 小 ,在 这 里 只 要 计算 子 序 列 的 概率 : 
p(n | u) Xp( 要 求 | n) = 0.000473 
plv | u) Xp( 要 求 | v) = 0.000154 
由 于 plnlu)Xp( 要 求 |m) 记 plviu) Xp( 要 求 |v), 则 最 后 "要求 "标注 为 名 词 。 
词性 标注 是 文本 处 理 中 的 基础 ,在 大 数据 背景 下 文本 分 类 ,语言 合成 .语料库 加 工 \ 信 息 
检索 等 领域 中 ,词性 标注 是 一 个 重要 部 分 ,基于 词 的 词性 能 够 更 好 地 进行 语义 上 的 理解 ,所 
以 词性 标注 工作 很 重要 。 本 节 介 绍 了 词性 标注 的 基本 算法 ,基于 规则 的 词性 标注 方法 和 基 
于 统计 的 词性 标注 方法 ,在 实际 应 用 中 ,还 会 有 基于 规则 和 统计 的 词性 标注 方法 ,目的 在 于 
能 够 快速 .高效 地 进行 词性 标注 工作 。 


4.4 新 疗 识别 


随 着 时 代 发 展 和 技术 进步 .新 词 的 大 量 出 现 已 经 成 为 不 可 避免 的 语言 现象 ,尤其 在 
互联 网 大 数据 下 的 文本 分 析 中 ,新 词 识别 成 为 一 个 重要 部 分 ,新 词 识 别 的 性 能 影响 着 文 
本 分 析 的 效果 。 例 如 ,在 中 文 自动 分 词 技术 中 新 闻 识 别 结果 已 经 成 为 提高 分 词 效果 的 
瓶颈 。 

新 闻 , 即 未 登录 词 , 指 未 在 词典 中 出 现 过 的 词 。 新 闻 识 别 主要 包括 两 项 具体 任务 : 候选 
新 词 的 提取 、 新 词 的 词性 预测 。 目 前 研究 较 多 的 为 候选 新 词 的 提取 方法 ,而 新 词 的 词性 预测 
将 简略 介绍 。 

候选 新 词 提取 的 方法 总 体 上 分 为 两 种 , 即 基于 规则 的 方法 和 基于 统计 的 方法 。 

基于 规则 的 方法 利用 构 词 学 原理 ,配合 语义 信息 或 词性 信息 来 构造 模板 ,然后 通过 匹配 
来 发 现 新 闻 。 目 前 ,基于 规则 的 候选 新 记 提 取 方 法 的 研究 不 多 ,并 且 方法 的 适用 性 有 限 。 例 
如 ,采用 通过 构 词 规则 来 提取 词 头 .词缀 及 特殊 字符 的 集合 ,用 来 识别 专 有 名 词 和 数字 ,帮助 
提高 分 词 效果 ,但 该 方法 只 对 简单 的 命名 实体 识别 有 效 。 

基于 统计 的 方法 则 是 主要 方法 . 它 通过 对 语 料 中 的 词 条 组 成 或 特征 信息 进行 统计 来 识 
别 新 词 。 基 于 统计 的 方法 . 即 在 大 规模 语 料 的 支持 下 .将 候选 新 词 提取 问题 转化 为 分 类 或 标 
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注 问题 ,通常 采用 统计 模型 进行 识别 。 常 用 的 统计 模型 有 : 隐 马 尔 科 夫 模型 (HMM) 、 决 策 
树 模 型 (DT) 支持 向 量 机 模型 (SVM) ,神经 网 络 模 型 .N-gram 模型 .最 大 炳 模型 等 。 例 如 ， 
采用 隐 马 尔 科 夫 模型 来 进行 新 词 识别 中 ,将 新 词 识别 看 作 标 注 问题 , 先 训练 隐 马 尔 科 夫 模 
型 ,然后 用 Viterbi 算法 标记 字符 ,最 后 通过 对 标记 的 解码 来 获得 新 闻 。 在 NLPIR 分 词 工 
具 中 ,首先 使 用 未 登录 词 角色 标记 语 料 训练 模型 参数 ; 然后 在 分 词 基 础 上 ,使 用 Viterbi 算 
法 对 句子 进行 角色 标注 ; 最 后 使 用 最 大 匹配 方法 ,依据 标记 的 组 合 原则 ,得 到 候选 新 词 。 

基于 统计 的 候选 新 闻 提 取 方 法 中 ,还 可 以 采用 基于 普通 重复 串 统计 方法 ,该 方法 思路 
为 : 直接 进行 字 串 的 串 频 统计 ,频率 高 于 阔 值 的 字 串 作为 候选 新 闻 , 最 后 将 候选 新 闻 中 的 垃 
圾 串 过 滤 后 , 剩 下 的 为 新 闻 。 该 方法 常 采 用 的 统计 模型 为 N-gram 模型 ,其 与 上 文中 隐 马 尔 
科 夫 模型 的 区 别 为 : 基于 隐 马 尔 科 夫 模型 的 方法 需要 有 先 验 知识 来 训练 模型 , 即 为 有 监督 
方法 ; 而 基于 普通 重复 串 统计 方法 不 需要 先 验 知识 ,为 无 监督 方法 。 

有 监督 方法 在 候选 新 词 提取 中 产生 的 垃圾 串 较 少 ,识别 准确 率 较 高 ,对 于 低频 词 有 更 好 
的 识别 效果 ,适用 于 在 线 的 新 词 识别 ,但 在 大 规模 训练 语 料 中 ,前 期 的 准备 工作 比较 复杂 。 
无 监督 方法 对 新 造 词 的 识别 效果 好 ,并 且 新 词 不 受 长 度 限 制 ,无 需 大 规模 语 料 支 持 , 但 是 低 
频 词 的 识别 效果 较 差 ,效率 不 高 ,不 适合 在 线 新 词 抽取 。 

新 词 的 词性 预测 与 普通 词性 标注 不 同 ,其 难点 在 于 没有 词典 和 统计 数据 的 支持 。 目 前 ， 
新 词 的 词性 预测 的 方法 多 为 基于 统计 或 统计 与 规则 相 结 合 的 方法 。 从 汉语 词性 分 类 角度 
看 ,可 分 为 实 词 和 虚词 两 大 类 。 实 词 是 意义 比较 具体 的 词 ,包括 名 词 ( 含 方位 词 ) 动词 形容 
词 ( 含 颜色 词 ) , 数 词 .量词 ,代词 六 大 类 。 虚 词 主要 指 没有 完整 的 词汇 意义 ,但 有 文法 意义 或 
功能 意义 的 词 .包括 副 词 . 介 词 连词. 助 词 \ 叹 词 . 象 声 词 六 大 类 。 新 间 一 般 是 有 实际 含义 的 
词汇 ,这 缩小 了 词性 预测 的 范围 。 

基于 统计 的 方法 所 统计 的 特征 包括 外 部 特征 和 内 部 特征 。 其 中 ,外 部 特征 包括 上 下 文 
信息 ( 相 邻 词 . 相 邻 字 和 相 邻 标记 ) 、 整 篇 文档 的 信息 等 ; 内 部 特征 包括 字 串 的 长 度 . 字 串 前 
级 、 字 串 后 级 , 字 捉 中 每 个 字符 的 具体 特征 (位 置 、 词 性 ) 等 。 

新 词 的 词性 预测 方法 包括 基于 单 类 特征 的 词性 预测 方法 和 基于 组 合 特征 的 词性 预测 方 
法 。 其 中 ,基于 单 类 特征 的 词性 预测 方法 只 使 用 内 部 特征 或 外 部 特征 训练 模型 ,预测 词性 ; 
而 基于 组 合 特 征 的 词性 预测 方法 首先 使 用 多 个 特征 训练 标注 模型 ,然后 根据 被 标注 新 词 的 
内 部 特征 直接 对 其 进行 词性 预测 。 

只 用 单 类 特征 的 词性 预测 方法 .效果 相对 较 差 , 将 内 部 特征 和 外 部 特征 相 组 合 来 训练 统 
计 模 型 ,会 取得 较 好 的 词性 预测 方法 。 同 时 ,目前 的 研究 表明 内 部 特征 对 词性 预测 更 为 
重要 。 

新 词 识别 工作 包括 候选 新 词 的 提取 和 新 词 词性 预测 。 其 中 ,候选 新 词 的 提取 已 经 有 了 
比较 成 熟 的 解决 方案 ; 而 新 词 词性 预测 目前 的 研究 工作 表明 ,还 没有 比较 成 熟 的 方法 来 解 
决 这 个 问题 。 同 时 在 实际 工作 中 ,部 分 新 词 的 词性 是 由 人 工 标注 来 完成 的 。 


4.5 停 用 词 的 处 理 


停 用 词 在 不 同 的 文本 分 析 任务 中 有 着 不 同 的 定义 ,在 基于 词 的 检索 系统 中 , 停 用 词 是 指 
出 现 频 率 太 高 .没有 太 大 检索 意义 的 词 . 如 “的 、 是 、 太 、the、of” 等 ; 在 文本 分 类 中 , 停 用 词 是 





















































90 互联 网 大 数据 处 理 技术 与 应 用 


指 没有 实际 意义 的 虚词 和 类 别 色彩 不 强 的 中 性 词 ; 在 自动 问答 系统 中 , 停 用 词 因 问题 不 同 
而 动态 变化 。 所 以 ,给 定 一 个 目的 ,任何 一 类 词语 都 可 以 被 选 为 停 用 词 。 

在 文本 分 析 任 务 中 ,通常 会 去 除 停 用 词 。 例 如 ,在 信息 检索 任务 中 ,对 于 功能 词 和 一 些 
使 用 频率 高 的 词 , 其 应 用 十 分 广泛 ,导致 搜索 引擎 无 法 保证 能 够 给 出 真正 相关 的 搜索 结果 ， 
难以 帮助 缩小 搜索 范围 ,还 会 降低 搜索 效率 ,所 以 去 除 停 用 词 能 够 节省 存储 空间 、 提 高 搜索 
效率 。 在 文本 分 类 任务 中 , 停 用 词 由 于 出 现 频率 高 会 导致 统计 模型 选择 的 特征 词 难 以 表示 
该 类 别 的 特征 ,导致 分 类 结果 变 差 。 

目前 , 停 用 词 表 有 通用 停 用 词 表 和 专用 停 用 词 表 之 分 ,其 生成 方法 有 人 工 构造 和 基于 统 
计 的 方法 两 种 方式 。 而 实际 工作 中 所 采用 的 停 用 词 表 通常 为 通用 停 用 词 表 或 在 其 基础 上 进 
行 增 减 的 停 用 词 表 ,除非 是 专门 研究 停 用 词 获取 方法 ,否则 很 少 采 用 基于 统计 的 方法 。 目 前 
网 络 上 有 一 些 公 开 的 停 用 词 表 ,中 文 停 用 词 表 有 哈工大 停 用 词 表 百度 停 用 词 表 及 一 个 较 全 
面 的 公开 停 用 词 表 。 其 中 ,哈工大 停 用 词 表 为 通用 停 用 词 表 , 其 停 用 词 比较 全 面 ; 百度 停 用 
词 表 为 专门 进行 信息 检索 的 停 用 词 表 ; 而 公开 停 用 词 表 中 停 用 词 比较 全 面 ,同时 包括 各 种 
符号 ,具有 一 定 参考 价值 。 在 英文 停 用 词 表 中 ,可 以 到 http://www. ranks. nl/stopwords 
网 站 去 查找 ,该 网 站 中 有 多 种 语言 的 停 用 词 表 ,但 只 有 英文 停 用 词 表 较 全 面 。 

停 用 词 处 理 在 文本 分 析 任 务 中 是 基础 部 分 ,能 够 提高 分 析 效 率 与 分 析 结 果 的 准确 性 。 
而 停 用 词 表 要 根据 文本 分 析 任务 的 特性 来 进行 选择 ,同时 在 实际 应 用 中 ,还 要 根据 任务 的 特 
性 进行 停 用 词 表 的 增删 工作 。 


4.6 英文 中 的 词 形 规范 化 


英文 单词 一 般 由 3 部 分 构成 , 即 词根 、 前 级 和 后 级 。 其 中 ,词根 决定 单词 意思 ; 前 级 改 
变 单词 词义 ; 后 级 改变 单词 词性 。 在 英文 文本 处 理 中 .需要 对 一 个 词 的 不 同形 态 进行 归并 ， 
提高 文本 处 理 的 效率 。 例 如 ,词根 run 有 不 同 的 形式 running、ran、runner 等 ,词根 处 理 就 是 
将 词根 run 的 不 同形 式 running ,ran、runner 还 原 成 词根 run。 

词 形 规范 化 是 指 将 一 个 词 的 不 同形 式 统一 为 一 种 具有 代表 性 的 标准 形式 ( 词 干 或 原型 ) 
的 过 程 。 它 有 两 种 处 理 方式 , 即 词 形 还 原 和 词 干 提取 。 

词 形 还 原 是 把 一 个 任何 形式 的 语言 词汇 还 原 成 一 般 形式 (能 够 表达 完整 语义 )。 例 如 ， 
did 还 原 成 do; cats 还 原 成 cat。 词 形 还 原 的 方法 有 : 基于 规则 的 方法 、 基 于 词典 的 方法 、 基 
于 统计 的 方法 ,其 中 基于 词典 的 方法 为 目前 应 用 中 的 主流 方法 。 

基于 词典 的 方法 主要 利用 词典 中 的 映射 查找 对 应 的 词 形 的 原型 。 其 原理 较 简单 ,但 词 
形 还 原 时 需要 更 复杂 的 形态 分 析 , 如 需要 词性 分 析 和 标注 。 目 前 大 量 的 词 形 还 原 工 具 均 是 
采用 基于 词典 的 方法 ,借助 现 有 词典 进行 词性 识别 . 词 形 和 原形 映射 。 但 基于 词典 的 方法 最 
大 的 缺点 在 于 受 限 于 词典 收录 词汇 数量 ,对 于 词典 未 收录 的 词 无 法 处 理 。 

词 干 提取 是 抽取 词 的 词 干 或 词根 形式 ,不 要 求 一 定 能 表达 完整 语义 。 例 如 ,fishing 抽 
取出 fish; electricity 抽取 出 electr。 词 干 提取 的 方法 同样 分 为 基于 规则 的 方法 、 基 于 词典 
的 方法 及 基于 统计 的 方法 。 其 中 .基于 规则 的 方法 中 经 典 的 算法 有 Porter 算法 、Lancaster 
算法 、Lovin 算法 ` Dawson 算法 ; 基于 词典 的 方法 则 与 上 文中 词 形 还 原 中 基于 词典 的 方法 
原理 相同 ; 基于 统计 的 方法 主要 用 于 解决 对 词典 中 未 收录 的 词 进行 词 形 规范 的 问题 ,采用 
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的 模型 有 N-gram 模型 HMM 模型 等 。 本 节 则 介绍 基于 规则 的 方法 中 的 Porter 算法 。 
Porter 算法 主要 用 于 信息 检索 中 的 术语 标准 化 。 在 Porter 算法 中 , 任何 词 都 可 以 表 
示 为 : 








[cj(Cvc)”[v] 

其 中 ,ce 为 辅音 ,v 为 元 音 ,[ 表示 内 容 可 选项 出 现 ,m 被 称 为 对 任意 词 的 测度 ,表示 vc 重 
复职 次 。m 的 值 可 以 取 任 何 大 于 或 等 于 0 的 值 .用 于 决定 是 否 需 要 删除 一 个 已 知 词 级 。 

算法 规则 的 表现 形式 为 : 

(condition)S1 -> S2 (4-21) 
式 (4-21) 表 示 : 若 满 足 条 件 . 词 级 S1 则 被 替换 为 词缀 S2。 

Porter 算法 将 若干 词 干 提取 划分 为 一 系列 线性 步骤 ,主要 步骤 如 下 。 

(1) 处 理 名词 复 数 (删除 词缀 或 对 复数 形式 重新 编码 ) ,处 理 动词 ed 或 ing 结尾 的 单词 ， 
并 对 词 干 重新 编码 。 

(2) 当 词 干 中 包含 元 音 ,并 以 y 结尾 时 ,将 y 改 为 i。 

(3) 双 后 级 结尾 的 词 ,将 双 词 级 映射 为 单词 级 ,如 将 ization 映射 为 ize,iveness 变 为 ive 等 。 

(4) 处 理 ic、full、ness 等 后 级 。 

(5) 在 [cjvevcLvj 情 况 下 ,处 理 ant、ence 等 后 级 。 

(6) 当 m1 时 删除 最 后 的 e。 

词 形 还 原 和 词 干 提取 均 为 将 词 简化 或 归并 为 基础 形式 ,都 是 一 种 对 词 的 不 同形 态 统一 
的 过 程 ,但 词 形 还 原 主 要 是 采用 “转化 ”的 方法 ,将 词 转化 为 原形 ; 而 词 干 提取 主要 是 采用 
“缩减 ”的 方法 ,将 词 转换 为 词 干 。 同 时 在 实际 应 用 中 , 词 形 还 原 多 用 于 文本 挖掘 、 自 然 语言 
处 理 ,以 及 用 于 更 为 细 粒 度 、 更 为 准确 的 文本 分 析 与 表达 ; 词 干 提取 被 应 用 于 信息 检索 ,以 
及 用 于 扩展 检索 、 粒 度 较 粗 。 

词 形 规范 化 是 信息 检索 系统 及 文本 分 析 过 程 中 的 必要 的 基础 操作 。 例 如 ,在 信息 检索 
系统 中 ,对 文本 中 的 词 进行 词 干 提取 ,能够 减少 词 的 数量 ,缩减 索引 文件 所 占 空间 ,并 使 检索 
不 受 输入 检索 词 的 特定 词 形 的 限制 ,扩展 检索 结果 ,提高 查 全 率 。 例 如 ,在 英文 文本 分 类 任 
务 中 , 词 形 还 原 是 一 项 基本 任务 ,如 名 词 的 单 复数 变化 ,动词 的 时 态 变化 ,形容词 的 比较 级 变 
化 等 会 导致 词义 相同 但 词 形 不 同 的 情况 ,而 这 些 词 不 应 该 作为 独立 的 词 来 进行 存储 和 参与 
计算 ,所 以 词 形 还 原 是 进行 分 类 任务 中 数据 预 处 理 的 基本 操作 。 


4.7 开源 工具 与 平台 


4.7.1 开源 工具 及 应 用 


这 里 主要 介绍 分 词 .词性 标注 、 词 形 规范 化 的 开源 工具 。 

目前 常用 的 中 文 开源 分 词 工具 有 IK Analyzer、NLPIR“ 结 巴 " 中 文 分 词 等 。 

IK Analyzer 是 一 个 开源 的 ,基于 Java 语言 开发 的 轻 量 级 中 文 分 词 工具 包 。 它 采用 特 
有 的 “ 正 向 迭代 最 细 粒 度 切 分 算法 ”. 具 有 60 万 字 / 秒 的 高 速 处 理 能 力 , 同 时 采用 多 子 处 理 器 
分 析 模 式 , 支 持 英文 字母 (包括 E-mail、URL) 、 数 字 ( 包 括 IP 地 址 .日 期 \ 常 用 中 文 数量 词 、 
罗马 数字 、 科 学 记 数 法 ) .中 文 词汇 (姓名 .地 名 处 理 ) 等 分 词 处 理 , 同 时 支持 用 户 词典 扩展 。 
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NLPIR, 即 原 ICTCLAS 分 词 工具 ,为 基于 多 层 隐 马尔 科 夫 模型 的 汉语 分 词 系统 ,主要 
功能 包括 中 文 分 词 . 词 性 标注 、 命 名 实体 识别 、 用 户 自 定义 词典 功能 ,以 及 关键 词 提取 等 ,还 
支持 GBK 编码 .UTF8 编码 .BIG5 编码 等 。 

“结巴 ?分词 工 具 是 一 个 Python 的 中 文 分 词组 件 ,是 基于 Trie 树 结构 实现 高 速 的 词 图 
扫描 ,生成 句子 中 汉字 所 有 可 能 成 词 情况 所 构成 的 有 向 无 环 图 ,然后 采用 动态 规划 查找 最 大 
概率 路 径 , 找 出 基于 词 频 的 最 大 切 分 组 合 。 其 功能 包括 支持 中 文 分 词 、 用 户 自 定义 词典 、 关 
键 词 提取 、 词 性 标注 、 并 行 分 词 等 。 

下 面 详细 介绍 NLPIR 的 调用 方法 ,NLPIR 能 够 支持 Java、Python、C 语言 等 的 调用 。 
本 节 将 介绍 Java 调用 NLPIR 中 API 进行 文本 处 理 。 

NLPIR 下 载 地 址 : http://ictclas. nlpir. org/ downloads。 

(1) 定义 继承 自 com. sun. jna. Library 的 接口 CLibrary。 

















CLibrary Instance = (CLibrary) Native. loadLibrary( 
"D:\\code\\ICTCLAS2014\\1ib\\win64\\NLPIR", CLibrary. class); 


其 中 ,路 径 中 “D” 为 存放 NLPIR 的 磁盘 符 , 然 后 初始 化 模型 。 


int init_flag = CLibrary. Instance. NLPIR_Init(argu 
.getBytes( system charset), charset type, "0" 
.getBytes( system_charset) ); 


其 中 ,参数 argu 为 ICTCLAS2014 文件 夹 路 径 。 
(2) 进行 分 词 调用 。 


CLibrary. Instance. NLPIR_ParagraphProcess( sInput, 0); 


其 中 ,参数 sInput 为 需要 分 词 的 字符 串 ; 第 二 个 参数 0 表示 不 进行 词性 标注 ,1 表示 需 
要 进行 词性 标注 。 

运行 结果 如 下 。 

假设 sInput 具体 内 容 为 “据悉, 质 检 总 局 已 将 最 新 有 关 情 况 再 次 通报 美方 ,要 求 美方 加 
强 对 输 华 玉米 的 产地 来 源 、 运 输 及 仓储 等 环节 的 管控 措施 ,有 效 避 免 输 华 玉 米 被 未 经 我 国 农 
业 部 安全 评估 并 批准 的 转基因 品系 污染 。” 


String sInput = "据悉 , 质 检 总 局 已 将 最 新 有 关 情 况 再 次 通报 美方 ,要求 美方 加 强 对 输 华 玉米 的 产地 
来 源 、 运 输 及 仓储 等 环节 的 管控 措施 , 有 效 避 免 输 华 玉米 被 未 经 我 国 农业 部 安全 评估 并 批准 的 转 基 
因 品 系 污染 ."; 

nativeBytes = CLibrary. Instance. NLPIR_ParagraphProcess( sInput, 0); 


分 词 结果 为 : 
据悉 ， 质 检 总 局 已 将 最 新 有 关 情况 再 次 通报 美方 ， 要 求 美方 加 强 对 输 华 玉米 的 产地 来 


源 、 运 输 及 仓储 等 环节 的 管控 措施 ， 有 效 避免 输 华 玉米 被 未 经 我 国 农业 部 安全 评估 并 
批准 的 转基因 品系 污染 . 


第 4 章 结构 化 处 理 技术 《 93 





进行 词性 标注 分 词 结果 如 下 : 


String sInput = "据悉 , 质 检 总 局 已 将 最 新 有 关 情 况 再 次 通报 美方 , 要 求 美方 加 强 对 输 华 玉米 的 产地 
来 源 、 运 输 及 仓储 等 环节 的 管控 措施 ,有 效 避 人 免 输 华 玉米 被 未 经 我 国 农业 部 安全 评估 并 批准 的 转 基 
因 品 系 污染 ."; 

nativeBytes = CLibrary. Instance. NLPIR_ParagraphProcess( sInput, 1); 


分 词 结果 为 : 


据悉 /v ,/wd 质 检 /vn 总 局 /n 已 /d 将 /d 最 新 /a 有 关 /wn 情况 /n 再 次 /d 通报 /v 美方 /n ,/wd 要 
求人 美方 /n 加 强 /v 对 /p 输 /v 华 /b 玉米/n 的 /udel 产地 /n 来 源 /n 、/wn 运输 /vn 及 /cc 仓储 / 
wn 等 /udeng 环节 /n 的 /udel 管 /v 控 /v 措施 /n ，/wd 有 效 /ad 避免 /v 输 /v 华 /b 玉米 /n 被 / 
pbei 未 经 /d 我 国 /n 农业 部 /nt 安全 /an 评估 /wn 并 /cc 批准 /v 的 /udel 转基因 /n 品系 /n 
污染 /wn ./wj 


关键 词 提 取 的 调用 方法 如 下 : 


CLibrary. Instance. NLPIR_GetKeyWords( ) 
String nativeByte = CLibrary. Instance. NLPIR_GetKeyWords( sinput, 10, false); 


可 以 得 到 如 下 的 关键 词 提取 结果 : 
农业 部 ,评估 仓储 ,污染 


接 下 来 介绍 词 形 规范 化 工具 。 目 前 , 词 形 还 原 和 词 干 提取 已 有 一 些 实现 工具 ,集成 了 词 
形 还 原 和 词 干 提取 功能 的 工具 有 NLTK、Standford CoreNLP 等 。 

NLTK 最 初 是 宾 州 大 学 计算 语言 课程 的 一 部 分 ,其 后 不 断 发 展 成 为 一 个 基于 Python 
的 自然 语言 处 理工 具 包 .能够 进行 字符 串 处 理 、 词 性 标注 、 分 类 、 解 析 等 大 量 文本 分 析 任 务 ， 
同时 在 字符 串 处 理 中 能 够 进行 词 形 还 原 和 词 干 提取 。 

NLTK 下 载 地 址 是 http://www. nltk. org/ ,安装 好 NLTK 后 ,还 需要 下 载 NLTK 的 
数据 集 nltk_data, NLTK 数据 集 的 下 载 地 址 为 http://nltk. github. com/nltk_data/ 。 

以 下 是 采用 NLTK 进行 词 形 还 原 的 示例 : 


>>> from nltk. stem import WordNetLemmatizer 
>>> lemma = WordNetLemmatizer() 

>>> lemma. lemmatize('running') 

running' 

>>> lemma. lemmatize( 'women') 

"woman 

>>> lemma. lemmatize( 'had') 

had， 


其 中 ,NLTK 能 够 将 women 转换 为 woman; 而 不 能 将 running 转换 为 run; had 转换 
为 have。 
用 NLTK 实现 词 干 提取 任务 的 过 程 如 下 : 
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>>> from nltk. stem import PorterStemmer 
>>> porter = PorterStemmer( ) 
>>> porter. stem( 'ruming') 





a 
>>> porter. stem( 'lying') 
"Lie' 

>>> porter. stem( 'had') 
had 


其 中 ,Porter 算法 能 够 处 理 将 lying 转换 为 lie; 将 running 转换 为 run; 但 不 能 将 had 
转换 为 have。 

NLTK 中 的 词 形 转换 和 词 干 提取 工具 能 够 完成 部 分 词 的 转换 工作 ,但 由 于 其 词典 的 不 
足 , 一 些 词 不 能 很 好 完成 转换 。 

Standford CoreNLP 是 Standford 大 学 的 自然 语言 处 理 团 队 编 写 的 基于 Java 语言 的 、 
用 于 自然 语言 处 理 的 工具 包 ,Standford CoreNLP 能 够 完成 分 词 、 分 句 、 词 性 标注 、` 词 形 还 
原 、 命 名 实体 识别 .语法 解析 、 情 感 分 析 等 任务 。 

Standford CoreNLP 的 下 载 地 址 是 : http://stanfordnlp. github. io/CoreNLP/ 。 

在 Standford CoreNLP 中 , 词 形 还 原 与 词 干 提取 是 同时 完成 的 ,具体 过 程 如 下 : 


// 创 建 一 个 对 象 
Properties props = new Properties(); 
//7 种 Annotators 
props. put("annotators", "tokenize, ssplit, pos, lemma, ner, parse, dcoref"); 
// 依 次 处 理 
StanfordCoreNLP pipeline = new StanfordCoreNLP(props); 
// 输 入 文本 
String text = "Fudan University was established in 1905 as Fudan Public School. "; 
// 利 用 text 创建 一 个 空 的 annotation 
Annotation document = new Annotation(text); 
// 对 text 执行 所 有 的 Annotators(7 种 ) 
// 遍 历 获取 分 析 结 果 
for(CoreMap sentence: sentences) { 
for (CoreLabel token: sentence. get(TokensAnnotation.class)) { 
// 获 取 分 词 
String word = token. get (TextAnnotation. class); 
// 获 取 词 性 标注 
String pos = token. get (PartOfSpeechAnnotation. class); 
// 获 取 词 形 还 原 结果 
String lemma = token. get (LemmaAnnotation. class); 
// 获 取 命 名 实体 识别 结果 
String ne = token. get (NamedEntityTagAnnotation. class); 
} 
} 
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分 析 结 果 如 下 (word 为 词 .pos 为 词性 lemma 为 原形 .ner 为 命名 实体 ): 





word pos lemma ner 

Fudan NNP Fudan ORGANIZATION 
University NNP University ORGANIZATION 
was VBD Be 0 
established VBN establish 0 

in IN In 0 

1905 CD 1905 DATE 

as IN Rs 0 

Fudan NNP Fudan ORGANIZATION 
Public NNP Public ORGANIZATION 
School NNP School ORGANIZATION 
5 0 


可 以 看 到 ,Stanford CoreNLP 能 够 将 was 转换 为 be 将 established 转换 为 establish 
等 ,其 词 形 还 原 与 词 干 提取 较 NLTK 有 一 定 的 优势 。 


4.7.2 阿里 分 词 器 


阿里 分 词 器 AliWS(Alibaba Word Segmenter, https://help. aliyun. com/document __ 
detail/42747. html 并 SplitWord) 是 阿里 云 大 数据 平台 上 的 一 个 组 件 , 能 够 对 输入 的 文本 进 
行 分 词 。 与 目前 大 部 分 分 词 相关 的 开源 工具 不 同 . AliWS 能 够 在 云 环境 下 进行 调用 ,为 云 
环境 下 的 应 用 开发 提供 了 支持 。 

AliWS 分 词 器 支持 自 定义 的 词典 ,命名 实体 识别 等 功能 。 它 的 使 用 很 简单 ,以 下 是 使 
用 步骤 的 介绍 。 具 体 一 些 涉 及 阿里 云 环境 的 MaxCompute(ODPS) 等 技术 将 会 在 第 8 章 和 
第 9 章 详细 说 明 。 

(1) 使 用 阿里 云 的 大 数据 计算 服务 MaxCompute 管理 控制 台 将 包含 文本 的 记录 导入 到 
MaxCompute 表 。 例 如 stocktxt, 其 中 包含 一 些 来 自 网 络 论坛 的 帖子 信息 ,共有 465 个 帖 
子 ,306K 的 文本 信息 。 具 体 有 以 下 步骤。 

@ 创建 MaxCompute 表 stocktxt。 这 个 表 可 以 有 一 个 或 多 个 字段 。 加 入 帖子 包含 了 
帖子 的 发 帖 人 和 帖子 内 容 , 那 么 该 表 就 需要 有 两 个 字段 ,名称 分 别 设 定 为 id、txt; 数据 类 型 
均 为 String。 

表 的 创建 可 以 在 “大 数据 开发 套件 ”中 的 “数据 管理 "中 通过 向 导 式 方法 输入 表 的 字段 和 
类 型 等 信息 ,如 图 4-4 所 示 。 

也 可 以 直接 通过 “数据 开发 "提供 的 SQL 建 表 界 面 进行 建 表 , 如 图 4-5 所 示 , 直 接 输 入 
以 下 的 SQL 语句 执行 即 可 。 


create table if not exists stocktxt( 
id string comment' 帖 子 ID 
name string comment' 帖 子 内 容 ' 
) partitioned by(dt string); 


@ 准备 好 上 传 的 文件 内 容 。 按 照 要 求 将 一 个 记录 (发 帖 人 和 帖子 内 容 ) 作 为 一 行 写 到 
文件 中 ,如 a. txt。 两 个 字段 之 间 的 间隔 符号 可 以 是 逗号 (',")、 空 格 (' ') 或 制 表 符 (\t')。 由 
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图 4-5 SQL 建 表 


于 帖子 内 容 中 含有 逗号 和 空格 ,因此 这 里 可 以 选择 制 表 符 为 字段 分 割 符 。 此 外 ,要 注意 的 


是 ,目前 允许 的 最 大 文件 是 10MB。 


图 上 传 文件 。 选 择 已 经 创建 好 的 表 stocktxt, 单 击 其 对 应 的 “导入 ”链接 ,出 现 如 图 4-6 


所 示 的 导入 窗口 ,选择 本 地 的 a. txt 文件 及 分 割 符 即 可 。 





(2) 构建 一 个 实验 流程 。 进 入 数 加 控制 台 的 机 器 学 习 模块 中 ,创建 一 个 实验 ,实验 流程 
中 添加 两 个 节点 ,在 第 一 个 节点 指定 数据 源 为 stocktxt 表 中 的 帖子 内 容 字段 ,第 二 个 节点 即 


为 分 词 器 。 分 词 器 组 件 提供 了 较 多 的 参数 可 以 配置 ,包括 识别 选项 、 合 并 


F 选 项、 分 割 标识 、 词 





性 标注 和 语义 标注 的 选择 。 其 中 ,识别 选项 提供 了 对 人 名 、 机 构 名 .电话 号 码 .日 期 等 实体 信 
息 的 识别 ; 合并 选项 则 允许 合并 中 文 数字 、 合 并 阿拉 伯 数 字 等 。 一 般 情 况 , 选 择 为 合并 阿拉 
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导入 数据 
导入 文件 浏览 
最 多 上 传 10MB 娄 所 
列 分 隔 符 国运 号 (.') 。 生 空 格 (") 司 制 表 符 (\) 











图 4-6 导入 数据 窗口 


伯 数 字 。 具 体 可 配置 的 界面 如 图 4-7 所 示 。 
经 过 上 述 设置 ,就 构造 完成 一 个 实验 流程 ,如 图 4-8 所 示 。 


字 忆 $i 


Recognized Options 
© stocktxt-1 外) 
3 1 


Merge Options 
合并 同 拉 伯 数字 $ We 
Split Word-1 加 


Tokenizer 


节点 了 
TAOBAO_CHN 四 节点 和 名称- Split Word-1 


算法 匀称 : Split Word 
结束 对 间 : 2016-09-08 11:35:15 
= 运行 时 长 : 00:00:53 
DOD Semantic Tagger 运行 状态 : 成 功 
图 4-7 阿里 分 词 器 的 配置 项 图 4-8 阿里 分 词 器 的 实验 流程 


(3) 执行 该 流程 。 执 行 完 毕 后 ,可 以 从 分 词 器 的 输出 中 看 到 切 分 结果 ,词性 标注 分 割 符 
号 是 "/"。 同 时 在 图 4-8 中 可 以 看 到 ,分 词 器 的 处 理 时 间 是 53 秒 , 而 同样 的 文本 量 在 海量 科 
技 的 分 词 器 (单机 : 主 频 2. 90GHz、 双 核 .8 GB 内 存 ) 中 进行 分 词 需要 85 秒 。 

以 下 是 切 分 及 词性 标注 的 输出 结果 示例 。 

输入 以 下 内 容 : 


国际 板 或 将 一 年 后 推出 ,明年 A 股市 场 将 在 上 半年 迎 来 一 波 行情 , 国际 板 或 将 在 一 年 后 推出 ,虽然 技 
术 层 面 不 存在 困难 ,但 是 与 论 反 对 扩容 ,所 以 国际 板 推出 时 间 会 延迟 .2012 年 A 股市 场 的 IPO 活动 将 
继续 保持 活跃 ,预计 上 半年 将 由 于 国家 政策 利好 


以 下 是 按照 图 4-5 所 示 的 设置 得 到 的 输出 结果 。 


国际 /n 板 /ng 或 /c 将 /p 一 年 人 t 后 /f 推出 /v ,/w 明年 /t A 股 /n 市 场 /n 将 /d 在 /p 上 /f 半年 /mg 迎 
来 /v 一 /m 波 /nrg 行 情 /n ，/w 国际 /n 板 /ng 或 /c 将 /d 在 /p 一 年 /t 后 /f 推出 /v ，/w 虽 然 /c 技 
术 /n 层 面 /n 不 /df 存在 /v 困难 /a ,/w 但 是 /c 与 论 /n 反对 /v 扩 /vg 容 /v ,/w 所 以 /c 国际 /n 
板 /ng 推出 时 间 /n 会 /ru 延迟 /v ./wj 2/m 0/n 1/m 2/m 年 /qt A 股 /n 市 场 /n 的 /ud I/nx P/ 
n On 活动 /vn 将 /d 继 续 /v 保持 /v 活跃 /a ,/w 预计 /v 上 /vq 半年 /mg 将 /d 由 于 /p 国家 / 
n 政策 /n 利好 /a 
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其 中 ,每 个 词汇 后 面 的 标识 表示 词性 (Pos Tagger)。 目 前 关于 汉语 词性 标识 有 北大 标 
准 、 中 科 院 标准 等 有 一 些 已 经 达成 共识 的 词性 标识 ,如 v 代表 动词 .n 代表 名 词 .a 代表 形容 
词 .ng 表示 名 词性 语素 等 。 

以 下 是 将 识别 选项 设置 为 "识别 简单 实体 "后 的 输出 结果 。 可 见 IPO、2012 年 就 能 正确 
切 分 。 








国际 /n 板 /ng 或 /c 将 /p 一 年 /t 后 /E 推出 /v ,/w 明年 /t A 股 /n 市场/n 将 /d 在 /p 上 /f 半年 /mq 
迎 来 /v 一 /nm 波 /nrg 行情 /n ,/w 国际 /n 板 /ng 或 /c 将 /d 在 /p 一 年 /t 后 /f 推出 /v ,/w 虽然 /c 
技术 /n 层面 /n 不 /df 存在 /v 困难 /a ,/w 但 是 /c 和 与 论 /n 反对 /v 扩 /vg 容 /v ,/w 所 以 /c 国际 /n 
板 /ng 推出 时 间 /n 会 /vu 延迟 /v . /wj 2012 年 /t A 股 /n 市 场 /n 的 /ud IPO/n 活动 /vn 将 /d 继续 / 
Vv 保持 /v 活跃 /a ,/w 预计 /v 上 /vq 半年 /mq 将 /d 由 于 /p 国家 /n 政策 /n 利好 /a 


如 果 是 采用 语义 标注 选项 ,得 到 的 结果 如 下 (部 分 ) ,指出 了 每 个 词 的 类 型 ,包括 基本 词 
及 其 具体 类 别 。 


国际 | 基本 词 -中 文 | 产品 类 型 修饰 词 板 | 产品 类 型 -简单 | 基本 词 -中文 或 | 基本 词 -中 文 将 | 基本 词 - 
中 文 一 年 | 新 闻 未 知 类 型 后 | 产品 -品牌 推出 | 基本 词 -中 文 ， 明 年 | 基本 词 -中 文 | 文体 娱乐 类 - 书 文 
课程 类 | 文体 娱乐 类 -报纸 杂志 类 A 股 | 基 本 词 -中 英 混 合 市 场 | 基 本 词 -中 文 | 产品 类 型 修饰 词 将 | 基 
本 词 -中 文 在 | 基本 词 -中 文 | 文体 娱乐 类 -Flash 作品 上 | 基本 词 -中 文 | 产品 类 型 修饰 词 半 年 | 基本 词 - 
中 文 | 文体 娱乐 类 -戏剧 歌曲 类 迎 来 | 基本 词 -中 文 | 机构 - 机 构 特 指 一 | 基本 词 -中 文 | 文体 娱乐 类 -游戏 
类 | 文体 娱乐 类 -戏剧 歌曲 类 | 文体 娱乐 类 - 书 文 课程 类 | 文体 娱乐 类 -影视 类 | 体育 -独立 无 后 缀 球 队 波 
| 基本 词 -中 文 行情 | 基本 词 -中 文 | 网 站 -频道 名 | 文体 娱乐 类 -报纸 杂志 类 


对 照 以 下 两 个 其 他 的 分 词 结果 ,一 是 海量 科技 分 词 的 结果 : 


国际 /n 板 /n 或 /c 将 /d 一 年 /mg 后 /f 推出 /v ,/w 明年 /t a 股 /n 市 场 /n 将 /d 在 /p 上 半年 /t 迎 来 /v 
一 /m 波 /n 行 情 /n ,/w 国际 /n 板 /n 或 /c 将 /d 在 /p 一 年 /mg 后 /f 推出 /v ,/w 虽然 /c 技术 /n 层面 /n 
不 /d 存 在 /v 困难 /a ,/w 但 是 /c 与 论 /n 反 对 /v 扩容 /v ,/w 所 以 /c 国际 /na 板 /n 推出 /v 时 间 /n 会 /v 
延迟 /v ./w 2012 年 /ta 股 /n 市场/n 的 /u ipo/nx 活动 /v 将 /d 继续 /v 保持 /v 活跃 /a ,/w 预计 /v 上 
半年 /t 将 /d 由 于 /c 国家 /n 政策 /n 利 好 /n 


二 是 中 科 院 计算 所 的 分 词 (http://ictclas. nlpir. org/nlpir/ ) 结 果 : 


国际 /n 板 /ng 或 /c 将 /p 一 年 /nr2 后 /f 推 出 /v, /wd 明年 /t Mrzv 股 /n 市 场 /n 将 /d 在 /p 上 半年 /t 迎 
来 人/v 一 波 /nr 行情/n, /wd 国际 /n 板 /ng 或 /c 将 /d 在 /p 一 年 /nr2 后 /f 推出 /v, /wd 虽然 /c 技术 /n 层 
面 /n 不 /d 存在 /v 困难 /an ,/wd 但 是 /c 与 论 侣 反对 /w 扩容 /v ,/wd 所 以 /c 国际 /n 板 /ng 推出 /v 时 
间 /n 会 /v 延迟 /v ./wj 2012 年 /t Mrzv 股 /n 市 场 /n 的 /BCDE IPO/n 活动 /n 将 /d 继续 /v 保持 /v 活 
跃 /a, /wd 预计 /v 上 半年 全 将 /d 由 于 /p 国家 /n 政策 /n 利好 /a 


可 以 看 出 ,不 同 分 词 系统 所 使 用 的 词汇 标签 还 存在 一 些 差异 ,阿里 分 词 能 够 识别 “A 
股 ”, 而 中 科 院 的 分 词 系统 在 "上 半年 及 数字 的 处 理 方面 得 到 更 符合 实际 的 结果 。 两 个 分 词 
系统 都 无 法 处 理 * 国 际 板 " 之 类 的 领域 词汇 ,这 就 需要 由 用 户 自 定义 词典 。 
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思考 题 


下 


. 为 什么 要 进行 文本 的 结构 化 处 理 ? 文本 结构 化 处 理 主要 包含 哪些 过 程 ? 

. 用 形式 化 语言 描述 基于 词典 的 正 向 最 大 匹配 分 词 方法 。 

. 基于 统计 的 分 词 方法 中 是 如 何 使 用 N-gram 模型 的 ? 

.比较 基于 词典 的 分 词 方法 和 基于 统计 的 分 词 方法 的 优 劣 ,并 提出 一 种 两 者 结合 的 新 


和 wD 


5. 描述 利用 隐 Markov 模型 进行 词性 识别 的 过 程 ,分 开 训练 过 程 和 词性 识别 过 程 。 
6. 下 载 本 节 所 介绍 的 开源 系统 ,选择 新 闻 报 道 文本 进行 实验 ,并 对 比 不 同 工 具 的 输出 
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语义 分 析 是 大 数据 处 理 的 核心 技术 之 一 ,大 数据 中 的 数据 类 型 多 种 多 样 。 一 方面 , 语 
音 、 图 片 、 视 频 通 常 可 以 转换 为 文本 后 再 处 理 , 因 此 ,在 大 数据 语义 中 最 主要 的 是 文本 的 语 
义 ; 另 一 方面 ,文本 内 容 在 互联 网 应 用 中 广泛 出 现 ,在 互联 网 大 数据 处 理 与 应 用 中 ,可 以 预 
见 将 会 普遍 遇 到 文本 信息 ,因此 本 章 主要 针对 文本 的 语义 分 析 技 术 进 行 前 述 。 本 章 内 容 主 
要 包括 词汇 和 句子 级 别 的 语义 分 析 、 命 名 实体 识别 技术 ,同时 也 涉及 语义 分 析 中 的 一 些 知 
识 库 。 


5.1 语义 及 语义 分 析 


在 现实 世界 中 ,各 种 事物 所 代表 的 概念 的 含义 ,以 及 这 些 概 念 之 间 的 关系 ,可 以 被 认为 
是 语义 。 现 实 中 的 事物 是 用 某 种 符号 来 表示 , 当 符 号 被 赋予 某 种 具体 含义 时 ,符号 数据 就 转 
换 为 信息 。 例 如 ,“ 猫 ”作为 字符 串 本 身 并 没有 什么 意义 ,而 当 人 们 将 它 与 现实 中 的 猫 联系 起 
来 ,再 通过 关于 猫 的 一 些 知 识 ,“ 猫 "就 具有 了 充足 的 语义 信息 。 而 没有 关联 能 力 ,没有 知识 
库 的 计算 机 程序 ,只 能 将 “ 猫 " 作 为 一 个 简单 的 字符 串 , 而 无 法 进行 更 深入 的 分 析 。 可 见 , 语 
义 对 于 促进 数据 含义 的 理解 是 非常 关键 的 ,语义 分 析 也 就 成 为 大 数据 分 析 挖 气 中 最 核心 的 
技术 问题 之 一 。 

从 语言 学 角度 来 看 ,语义 是 语言 的 意义 ,是 语言 形式 和 语 用 形式 所 表现 出 来 的 全 部 含 
义 , 包 括 语言 意义 和 言语 意义 两 大 类 型 。 语 言 意义 是 音义 结合 的 语言 系统 固有 的 意义 ,包括 
词语 意义 和 语法 意义 ; 言语 意义 则 是 指 具体 的 人 在 具体 的 语 境 中 ,对 语言 意义 具体 运用 的 
结果 。 因 此 ,语义 是 个 含义 较为 广泛 的 概念 , 既 可 以 指 词语 的 意义 ,也 可 以 指 话语 内 容 的 
会 义 。 

理解 语义 所 具有 的 特征 ,对 于 设计 算法 或 计算 模型 具有 一 定 的 指导 意义 ,简要 归纳 
如 下 。 

1. 语义 的 客观 性 和 主观 性 

语义 作为 人 们 对 词语 所 指 事物 或 现象 的 一 种 指 代 , 它 最 终 来 源 于 客观 世界 ,具有 一 定 的 
客观 性 。 但 是 语义 也 是 人 们 认识 事物 或 现象 的 结果 ,在 认识 过 程 中 也 必然 存在 主观 性 。 例 
如 , 花 、 草 、 树 、 木 等 都 是 一 种 客观 存在 ,而 长 、 短 、 胖 、 瘦 所 指 代 的 语义 就 具有 主观 性 。 
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2. 语义 的 概括 性 和 具体 性 

语义 是 人 们 对 事物 的 认识 .这 种 认识 是 对 事物 的 一 种 概括 。 词 语 的 意义 概括 了 它 所 指 
的 各 个 具体 对 象 的 共同 特征 。 这 就 好 比 面向 对 象 程序 设计 中 的 类 、 对 象 和 属性 ,属性 是 不 同 
对 象 共同 特征 的 一 种 概括 。 

3. 语义 的 稳固 性 和 变异 性 

语义 的 稳固 性 是 为 了 保证 交际 的 顺利 进行 。 语 义 具有 变异 性 ,是 因为 语义 是 人 们 认识 
客观 事物 的 一 种 反映 ,而 客观 事物 总 是 在 不 断 地 变化 ,从 而 人 们 的 认识 也 在 不 断 变 化 。 例 
如 ,古代 的 学 士 和 现代 的 学 士 就 具有 不 同 含义 。 

4. 语义 的 清晰 性 和 模糊 性 

语义 的 客观 性 和 主观 性 ,也 决定 了 语义 具有 清晰 性 和 模糊 性 。 模 糊 性 主要 体现 在 语义 
边界 上 ,如 * 胖 ”所 具有 的 语义 是 一 个 模糊 概念 ,边界 并 不 清晰 ,用 简单 的 判断 逻辑 是 无 法 定 
义 的 。 

5. 语义 的 领域 性 

对 于 一 些 词语 含义 的 理解 ,需要 在 某 个 具体 的 领域 中 才 有 确定 的 结果 ,也 可 能 存在 同一 
事物 在 不 同 领域 中 有 不 同 理解 的 情况 。 例 如 ,苹果 ”在 水 果 食 品 领 域 和 手机 通信 和 领域 就 具 
有 不 同 的 含义 。 通 常 所 说 的 语义 异 构 是 指 对 同一 事物 在 解释 上 所 存在 的 差异 ,具体 在 语言 
学 中 的 体现 就 是 一 词 多 义 。 

汉语 中 的 实 词 在 进入 句子 后 , 词 与 词 之 间 有 多 少 种 语义 关系 及 各 种 语义 关系 的 名 称 , 目 
前 汉语 语法 学 界 还 没有 统一 的 说 法 。 目 前 经 常 提 到 的 主要 语义 关系 有 施 事 、 受 事 、 与 事 、 工 
具 、 结 果 、 方 位 ,时 间 \ 目 的 ,方式 原因、 同事 、 材 料 、 数 量 、 基 准 \ 范 围 . 条 件 、 领 属 等 。 而 所 请 
语义 分 析 , 是 指 分 析 句 子 结构 中 实 词 与 实 词 之 间 的 语义 关系 。 例 如 ,“ 这 本 书 降价 了 ”这 个 句 
子 ,“ 书 ”和 “降价 ”之 间 存 在 主 谓 关 系 , 前 者 是 后 者 的 施 事 。 语 义 分 析 对 于 计算 机 进一步 分 析 
语法 结构 、 正 确 理解 句子 的 意义 有 着 重要 的 作用 。 

正 是 由 于 语义 关系 的 多 样 性 :也 使 得 语义 分 析 研究 任务 丰富 多 彩 。 但 是 由 于 计算 机 处 
理 和 推理 能 力 的 限制 ,目前 ,在 该 领域 研究 中 只 针对 很 少 部 分 的 语义 关系 分 析 。 不 管 怎么 
样 ,最 根本 的 目的 是 要 把 句子 中 的 语义 关系 识别 出 来 。 然 而 为 了 实现 该 目标 ,有 一 些 更 基本 
的 任务 需要 先 完成 ,具体 任务 如 下 。 

(1) 语义 关系 中 的 基本 单元 分 析 识 别 , 如 时 间 信 息 、 地 点 信息 等 。 

(2) 分 析 句 子 的 主 谓 宾 结 构 。 

(3) 分 析 句 子 中 的 词语 修饰 关系 。 

综合 这 些 语 义 分 析 任 务 及 前 述 关 于 词语 和 语法 的 意义 ,本 章 关 于 文本 的 语义 分 析 主 要 
讲解 词汇 级 别 的 语义 技术 、 句 子 级 别 的 语义 技术 和 命名 实体 识别 3 个 重要 的 分 析 方 法 。 


5.2 词汇 级 别 的 语义 技术 
词汇 级 别 语义 分 析 的 基本 任务 通常 包括 对 两 个 词汇 的 语义 关系 进行 判断 ,对 两 个 词汇 


的 语义 相关 度 进行 计算 。 在 互联 网 大 数据 中 ,有 大 量 的 数据 以 独立 的 词汇 存在 ,标签 就 是 最 
典型 的 代表 。 用 户 的 标签 反映 了 用 户 的 偏好 和 特征 .商品 的 标签 反映 了 商品 的 属性 。 在 许 





























102 互联 网 大 数据 处 理 技术 与 应 


多 网 站 上 都 存在 大 量 的 标签 .如 豆瓣 网 让 用 户 用 标签 进行 图 书 . 电 影音 乐 等 的 标注 ,美味 书 
签 Chttps://delicious. com/) 是 目前 最 大 的 书签 站 点 ,提供 了 一 种 简单 共享 网 页 的 方法 ,为 
互联 网 用 户 提供 共享 及 分 类 他 们 喜欢 的 网 页 书签 。 

由 于 词汇 本 身 所 能 提供 的 信息 量 非常 少 ,因此 在 词汇 级 别 上 进行 语义 分 析 , 通 常 需要 借 
助 一 定 的 语义 知识 库 或 语料库 。 

5.2.1 词汇 的 语义 关系 

20 世纪 70 年 代 中 期 英国 著名 语言 学 家 利 奇 (G.，Leech) 在 《语义 学 ) 一 书 中 ,给 出 了 以 
下 7 种 类 型 的 语义 关系 。 

(1) 概念 意义 (Conceptual Meaning) : 关于 逻辑 . 认 知 或 外 延 内 容 的 意义 。 

(2) 内 涵 意 义 (Connotative Meaning) : 通过 语言 所 指 事物 传递 的 意义 。 

(3) 社会 意义 (Social Meaning) : 关于 语言 运用 的 社会 环境 的 意义 。 

(4) 感情 意义 (Affective Meaning) : 关于 说 话 人 或 作者 的 情感 或 态度 的 意义 。 

(5) 反映 意义 (Reflected Meaning): 关于 词汇 所 表现 出 来 的 意义 。 

(6) 搭配 意义 (Collocative Meaning) : 反映 了 词汇 与 其 他 词汇 之 间 联 合 使 用 的 意义 。 

(7) 主题 意义 (Thematic Meaning): 反映 了 词汇 表达 一 定 主题 的 意义 。 

而 根据 语义 场 的 定义 ,语义 关系 可 以 分 解 为 类 属 关系 、 部 分 与 整体 .组 成 关系 、 包 含 关 
系 、 同 义 关系 、 反 义 关系 。 

其 中 同 义 关系 可 以 分 为 绝对 同 义 ( 即 等 义 词 ) 和 相对 同 义 ( 即 近义词 ); 反 义 关系 可 以 分 
为 互补 对 立 关系 ( 即 没 有 中 间 状 态 , 如 生死 ) ,两极 对 立 关系 (有 中 间 状 态 , 如 大 小 ) 、 关 系 对 立 
( 指 行为 活动 或 社会 关系 ,如 买卖 ) 。 

词汇 之 间 的 语义 关系 是 独立 于 具体 句子 的 ,如 计算 机 和 屏幕 之 间 体 现 为 组 成 关系 ,教师 
和 人 之 间 则 体现 了 “是 一 种 …… ”的 类 属 关系 。 同 样 在 其 他 语言 中 ,也 有 类 似 的 语义 关系 描 
述 , 如 英文 中 的 is of ,one of 、part of 等 关系 。 

上 述 提 到 的 * 施 事 "“ 受 事 ”"“ 与 事 " 等 语义 关系 ,和 这 里 所 描述 的 词汇 之 间 的 语义 关系 ， 
便 构成 了 计算 机 语义 分 析 的 主要 对 象 。 可 以 看 出 ,在 语言 学 中 这 些 语义 关系 实际 上 已 经 被 
分 得 很 详细 ,而 当前 的 计算 机 算法 只 能 处 理 其 中 少数 的 语义 关系 。 尽 管 如 此 ,这 些 语 义 分 析 
研究 在 人 工 智能 新 的 理论 支持 下 , 仍 在 不 断 地 发 展 中 。 如 何 识别 .提取 和 分 析 这 些 语 义 关 系 
成 为 在 大 数据 中 寻找 细节 的 关键 技术 之 一 ,是 大 数据 实现 价值 挖掘 的 重要 问题 。 

具体 而 言 ,目前 基于 词汇 语义 关系 的 相关 研究 主要 体现 为 以 下 4 个 方面 。 

1. 词汇 之 间 的 语义 相关 度 

词汇 之 间 基 本 的 要 求 就 是 对 给 定 的 两 个 词汇 计算 它们 之 间 的 语义 相关 度 , 这 两 个 词 通 
常 是 指 实 词 ,典型 的 包含 名 词 ,动词 形容词 等 。 考 虑 到 一 个 词汇 可 能 具有 多 种 词性 ,在 计算 
词汇 之 间 的 相关 度 时 ,就 有 两 种 具体 任务 。 一 种 是 假设 这 两 个 词汇 具有 相同 的 词性 ; 另 一 
种 则 没有 这 个 限制 ,实际 上 就 是 不 考虑 词汇 的 词性 。 

2. 词汇 之 间 的 语义 关系 类 型 判断 

如 前 所 述 ,词汇 之 间 的 语义 关系 有 很 多 种 划分 方法 ,也 导致 多 种 不 同 的 语义 关系 ,它们 
之 间 可 能 重 有 交叉。 对 于 在 语义 关系 判断 方面 的 研究 ,目前 主要 侧重 于 类 属 关系 、 部 分 与 整 
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体 、 组 成 关系 和 包含 关系 等 。 

3. 词汇 属性 判断 

语言 学 家 利 奇 所 提出 的 语义 关系 ,实际 上 是 词汇 自身 的 属性 ,其 中 也 有 不 少 已 经 成 为 当 
前 的 研究 范畴 。 主 要 的 属性 有 以 下 几 种 。 

(1) 词汇 的 情感 意义 ,具体 可 能 再 分 为 情感 极 性 类别 .情感 程度 等 。 它 引申 出 来 的 相 
关 研 究 就 是 情感 分 析 , 是 人 工 智能 的 一 个 研究 前 沿 课题 。 

(2) 词汇 的 概念 意义 ,一 个 词汇 本 身 所 表达 的 概念 ,以 及 用 于 描述 这 种 概念 的 相关 词 
汇 。 概 念 的 建立 除了 描述 概念 的 核心 词汇 之 外 ,还 有 与 该 概念 相关 的 词汇 、 描 述 概念 的 属性 
词汇 。 例 如 ,“ 手 机 ”与 “颜色 ”“ 屏 幕 "“ 电 池 ” 等 的 关系 。 

(3) 主题 意义 ,从 主题 层面 来 看 词汇 。 对 于 这 些 属性 的 判断 方法 ,会 有 较 大 的 区 别 。 可 
能 与 具体 语 境 无 关 ,也 可 能 依赖 于 具体 语 境 。 

4. 词汇 之 间 的 同 义 或 反 义 关系 判断 

如 前 所 述 , 这 两 种 语义 有 互补 对 立 关系 等 更 加 详细 的 类 型 划分 ,但 目前 在 计算 机 的 自动 
判断 方面 , 尚 没有 对 这 两 种 关系 的 细 分 关系 进行 判断 ,一 般 就 是 针对 同 义 或 反 义 本 身 。 

由 于 词汇 自身 所 具有 的 信息 量 非常 少 , 从 计算 机 的 角度 来 看 ,只 有 词汇 字符 串 , 因 此 在 
词汇 级 别 上 进行 语义 分 析 判 断 , 就 需要 引入 一 些 外 部 的 知识 库 或 上 下 文 信息 ,根据 词汇 语义 
计算 所 依赖 的 不 同 外 部 信息 。 下 面 围绕 着 外 部 的 语义 知识 库 和 上 下 文 信息 进行 运算 时 的 一 
些 做 法 和 基本 原理 做 详细 介绍 。 


5.2.2 知识 库 资 源 


为 了 支持 词汇 级 别 的 语义 分 析 , 目 前 已 经 有 一 些 开放 的 知识 库 资 源 可 供 使 用 。 在 这 些 
资源 中 ,最 重要 的 是 语义 知识 库 , 它 又 可 以 分 为 英文 ,中文 等 不 同 语言 的 版 本 。 各 国都 致力 
于 可 用 于 自然 语言 处 理 的 大 规模 语义 词典 或 大 规模 知识 库 的 建设 。 例 如 ,普林斯顿 大 学 的 
英语 WordNet, 微 软 的 Mindnet ,欧洲 有 基于 WordNet 的 Eurowordnet, 日 本 的 日 语 和 英语 
的 概念 词典 ,韩国 的 Koreanwordnet, 中 国有 以 WordNet 为 框架 而 研制 的 现代 汉语 概念 词 
典 一 一 中 文 概念 辞书 (CCD) 和 董 振东 ` 董 强 的 HowNet( 知 网 ) 。 

除 此 之 外 ,还 有 一 些 其 他 专门 的 资源 ,包括 同义词 库 ` 反义词 库 、. 情 感 信息 库 、 程 度 词 列 
表 等 ,都 是 经 常用 于 词汇 语义 分 析 的 知识 库 。 

本 节 主 要 讲解 WordNet 和 HowNet。 

1. 英文 语义 知识 库 

WordNet 是 一 种 英文 词汇 组 成 的 语义 网 络 , 它 不 仅 是 一 种 单词 的 集合 ,而 且 按 照 单词 
的 意义 将 它们 之 间 的 关系 进行 了 归 类 描述 .从 而 组 成 了 一 张 逻 辑 上 能 体现 词汇 语义 关系 的 
网 络 。WordNet 的 核心 是 词汇 语义 关系 的 描述 ,当然 它 是 一 种 实际 存在 的 知识 库 系统 , 允 
许 开发 人 员 或 一 般 使 用 者 利用 其 提供 的 界面 进行 词汇 语义 关系 分 析 。 可 见 , 它 需 要 由 多 学 
科 的 人 员 共 同 完 成 .WordNet 就 是 由 Princeton 大 学 的 心理 学 家 、 语 言 学 家 和 计算 机 工程 师 
联合 设计 的 一 种 特殊 英语 词典 。 但 它 与 传统 词典 的 主要 区 别 在 于 词汇 信息 组 织 的 新 方式 ， 
而 不 是 在 词义 及 覆盖 面 方面 。 

WordNet 的 发 展 经 历 了 很 长 的 历史 ,在 20 世纪 70 年 代 , 随 着 基于 义 素 分 析 的 词汇 语 
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义学 (Componential Lexical Semantics) 和 基于 关系 的 词汇 语义 学 (Relational Lexical 
Semantics) 逐 渐 成 为 受 关注 的 研究 ,George A. Miller 与 Philip N. Johnson-Laird 在 1976 
年 合作 的 《语言 与 感知 ?一 书 中 探索 了 义 素 分 析 的 语义 描述 方法 。1978 年 ,Miller 描述 了 一 
种 自动 化 词典 (Automated Dictionary) 的 想法 ,直到 1984 年 ,Miller 在 IBM PC 上 做 出 了 45 
个 名 词 的 小 型 语义 网 络 ,他 将 这 个 网 络 称 为 "word net”。 他 的 多 位 好 友 , 包括 Michael 
Lesk、Roy Byrd 等 都 鼓励 他 继续 做 下 去 ,并 在 技术 上 给 予 了 许多 指导 。 

1985 年 ,Miller 在 加 拿 大 滑铁卢 大 学 新 牛津 英语 词典 中 心 的 第 一 次 会 议 上 提交 了 一 篇 
报告 ,其 题目 为 “WordNet: A Dictionary Browser”。 从 题目 上 可 以 看 出 ,作者 试图 将 
WordNet 设想 为 词典 浏览 器 ,显然 这 种 浏览 器 所 浏览 的 词典 肯定 不 是 简单 的 基于 字母 顺 
序 , 否 则 就 没有 研究 的 必要 了 。 在 报告 中 ,他 解释 了 使 用 同义词 集合 (Synset) 来 代表 词汇 概 
念 ,从 而 实现 词 的 形式 和 意义 映射 的 思想 。 也 就 是 意味 着 词典 中 的 词 是 基于 其 具体 意义 来 
组 织 的 ,这 种 复杂 的 意义 关系 就 需要 特定 的 浏览 器 来 查阅 了 。 实 际 上 在 WordNet 的 后 续 发 
展 中 ,这 种 思想 一 直 是 其 重要 的 指导 。 

在 WordNet 逐步 成 型 时 ,Miller 和 他 的 同事 在 普林斯顿 发 起 了 一 个 认 知 研究 计划 ,并 
得 到 了 一 些 科研 基金 的 支持 。 由 此 ,WordNet 开始 成 为 普林斯顿 认 知 科学 实验 室 的 计划 ， 
并 开始 运作 。 

1987 年 春 ,心理 学 家 Philip N, Johnson-Laird 从 剑桥 应 用 心理 学 研究 所 到 普林斯顿 大 
学 访问 ,发现 WordNet 中 缺乏 一 种 手段 来 区 分 形容 词 在 修饰 不 同名 词 时 所 发 生 的 变化 , 利 
用 反 义 形容 词 修饰 名 词 的 适合 度 来 区 分 出 名 词 的 次 类 ,并 构成 了 名 词 的 基础 分 类 ,从 而 推动 
了 WordNet 的 发 展 。1987 年 夏 , 认 知 科学 家 Christiane Fellbaum 加 盟 WordNet ,并 完成 对 
动词 的 分 类 。 此 后 ,不 断 有 各 个 领域 的 研究 人 员 加 入 WordNet 的 研究 和 应 用 中 。 

WordNet 在 发 展 的 过 程 中 , 几 个 主要 的 历史 版 本 如 下 。 

1991 年 7 月 ,WordNet 1.0 版 ,包含 44 983 个 同义词 集合 ,13 688 个 注释 。 

1992 年 4 月 ,WordNet 1.2 版 。 

1993 年 8 月 ,WordNet 1.4 版。 

1995 年 3 月 ,WordNet 1.5 版 。 

1997 年 ,WordNet 1.6 版 (支持 Windows、UNIX、Mac)。 

2001 年 ,WordNet 1.7.1 版 (支持 Windows 和 UNIX)。 

2005 年 .WordNet 2. 1 版 (支持 Windows, 这 是 目前 Windows 平台 上 最 新 版 ) 。 

2006 年 ,WordNet 3. 0 版 (支持 UNIX、Linux、Solaris 等 ) 。 

2012 年 11 月 ,WordNet 3. 1 版 ,包含 155 287 个 词汇 ,117 659 个 同义词 ,206 941 个 
word-sense, 整 个 压缩 数据 库 有 12MB。 

最 新 版 本 可 以 在 WordNet 的 网 站 上 下 载 (http://wordnet. princeton. edu/wordnet/ 
download/current-version/), 可 下 载 的 文件 包括 WordNet 词汇 知识 库 及 相关 的 支持 工具 ， 
如 WordNet 浏览 器 、 命 令 行 工具 等 。 除 此 以 外 ,目前 该 网 站 也 提供 了 部 分 历史 版 本 的 
下 载 。 

WordNet 可 以 被 认为 是 一 种 英文 词汇 的 语义 知识 库 ,这些 知 识 库 中 记录 了 词汇 之 间 的 
各 种 语义 关系 ,这 种 关系 是 经 过 人 为 精心 编排 的 ,历时 20 多 年 。 其 中 的 词汇 主要 来 自 于 以 
下 语 料 或 词典 。 





(1) Brown 语料库 。 
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(2) Laurence Urdang(1978 年 ) 的 ( 同 义 反 义 小 词典 )》。 
(3) Urdang(1978 年 ) 修 订 的 《Rodale 同义词 词典 》。 
(4) Robert Chapmand(1977 年 ) 的 第 4 版 (罗杰斯 同义词 词 林 》。 

(5) 美国 海军 研究 与 发 展 中 心 的 Fred Chang 的 词 表 (1986 年 )[ 与 WordNet 原 有 词 表 


只 有 15% 的 重合 词语 ]。 


(6) Ralph Grishman 和 他 在 纽约 大 学 的 同事 的 一 个 词 表 ,包含 39 143 个 词 ,这 个 词 表 
实际 上 包含 在 著名 的 COMLEX 词典 中 (1993 年 )。WordNet 当时 的 词 表 与 该 词 表 重 合 率 


为 74%。 


根据 这 样 的 词汇 来 源 的 选择 ,可 以 清楚 地 看 出 , WordNet 实际 上 所 收录 的 词汇 都 是 一 
些 比较 正规 的 词汇 ,而 对 于 目前 互联 网 中 新 产生 的 词汇 或 网 络 用 词 并 没有 被 收录 ,这 也 就 决 
定 了 WordNet 的 使 用 范围 。 此 外 , WordNet 中 所 收录 的 词汇 类 型 主要 是 名 词 动词 .形容 
词 及 少量 副词 。 例 如 ,在 WordNet 2. 1 版 中 ,各 种 类 型 的 词汇 数量 如 表 5-1 所 示 。 


表 5-1 WordNet 2.1 版 中 收录 的 词汇 统计 信息 


























POS 唯一 的 字符 串 Synsets Word-Sense pairs 
名 词 117 097 81 426 145 104 
动词 11 488 13 650 24 890 
形容 词 22 141 18 877 31 302 
副词 4601 3644 5720 
总 计 155 327 117 597 207 016 
WordNet 的 构建 设计 基于 的 心理 语言 学 假设 可 分 为 以 下 3 种 。 


(1) 可 分 离 性 假设 (Separability Hypothesis): 认为 语言 的 词汇 成 分 可 以 被 单独 提取 出 


来 并 专门 针对 它 加 以 研究 。 


(2) 可 模式 化 假设 (Patterning Hypothesis): 一 个 人 不 可 能 掌握 他 运用 一 种 语言 所 需 
的 所 有 词汇 ,除非 他 能 够 利用 词义 之 间 存 在 的 系统 的 模式 和 关系 。 

(3) 广泛 性 假设 (Comprehensiveness Hypothesis): 计算 语言 学 如 果 希 望 能 像 人 那样 
处 理 自然 语言 ,就 需要 像 人 那样 储存 尽 可 能 多 的 词汇 知识 。 

基于 这 些 假设 , WordNet 所 能 提供 的 语义 计算 与 分 析 功 能 ,分 别针 对 名 词 、 形 容 词 、 动 


词 和 副词 ,介绍 如 下 。 
1) 对 于 名 词 而 言 


(1) 同义词 的 判断 ,这 是 基于 WordNet 的 同义词 集合 (Synset)。 

(2) 词汇 层级 关系 分 析 (Lexical Hierarchy)。 用 层级 来 表示 词汇 的 关系 具有 一 定 心 理 
学 和 语言 学 证 据 . 在 Collins & Quillian(1969 年 ) 提 到 的 distance in hierarchy, 以 及 Smith 
& Medin(1981 年 ) 的 typicality or prototypicality theory。 基 于 这 种 关系 ,在 WordNet 中 ， 
能 够 表达 {robin，redbreast) 是 一 种 {animal， animate_being) . 而 动物 是 一 种 { organism， 
life_form, living_thing) 的 语义 关系 。 在 名 词 的 层级 关系 中 ,一 个 名 词 通常 只 有 一 个 直接 上 
位 词 ,而 可 能 拥有 不 止 一 个 的 下 位 词 。 图 5-1 所 示 的 是 WordNet 中 层级 关系 的 片段 ,其 中 
虚线 表示 省 略 其 中 一 些 中 间 节 点 。 
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medium of exchange 





1 


money 


1 
cash 
1 
1 credit 
coin 
nickel dime credit card 


图 5-1 WordNet 中 层级 关系 片段 


(3) 词汇 类 别 归属 。 在 WordNet 中 ,将 名 词 所 表达 的 类 别 归 纳 为 25 个 基本 类 别 , 在 进 
行 词 汇 的 概念 化 等 分 析 中 ,通常 都 需要 这 样 的 信息 。 这 25 个 基本 类 别 如 下 。 


{act,activity} 动作 行为 
{fo0d} 食物 
{possession} 所 有 物 
{animal, fauna} 动物 
{group, grouping} 团体 
{process} 过 程 
{artifact} 人 工 物 
{1location} 处 所 
{quantity, amout} 数量 
{attribute} 属性 
{motivation, motive} 动机 
{relation} 关系 
{body} 身体 
{natural_object} 自然 物 
{shape} 外 形 
{cognition, knowledge} 认 知 、 知 识 
{natural_phenomenon} 自然 现象 
{state} 状态 
{communication} 通信 
{person, human_being} 人 类 
{substance} 物质 
{event, happening} 事件 
{plant, flora} 植物 
{time} 时 间 
{feeling, emotion} 情感 


这 25 个 类 也 可 以 进一步 归结 为 11 个 基本 类 , 即 entity (实体 )、abstraction( 抽 象 物 )、 
psychol feature( 心 理 特征 ) ,natural phenomenon( 自 然 现象 ) .activity( 行 动 ) .event( 事 件 )、 
group( 团 体 ) location( 处 所 ) possession( 所 有 物 ) shape( 外 形 ) state( 状 态 )。 其 中 ,实体 
又 分 解 为 organism 和 object。 

(4) 部 分 与 整体 关系 (Meronymy) 的 判断 。 部 分 与 整体 关系 包括 A 是 B 的 组 成 部 分 、 人 A 
是 BB 的 成 员 、A 是 B 的 构成 材料 。 例 如 ,wing 是 bird 的 组 成 部 分 ,tree 是 forest 的 成 员 ,而 
aluminum 是 plane 的 构成 材料 。 
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2) 对 于 形容 词 而 言 

英语 中 修饰 成 分 的 句法 类 主要 是 形容 词 和 副词 ,形容 词 修饰 名 词 。 

WordNet 把 形容 词 分 为 两 类 : 描写 型 形容 词 (Descriptive Adjectives) 和 关系 型 形容 词 
(Relational Adjectives) 。 前 者 如 big beautiful ,interesting、 possible ,married …… 后 者 因 其 
与 名 词 的 关系 而 得 名 ,如 electrical engineer 中 的 electrical 实际 与 名 词 electricity 相关 。 值 
得 注意 的 是 ,这 两 类 形容 词 应 该 能 代表 英语 形容 词 中 的 绝 大 多 数 ,但 并 不 是 说 就 覆盖 了 所 有 
的 英文 形容 词 。 

描写 性 形容 词 的 基本 语义 关系 包括 以 下 几 种 。 

(1) 反 义 关 系 (Antonymy)。 心 理学 上 的 证 据 是 , 当 一 个 人 听 到 一 个 描写 性 形容 词 时 ， 
如 果 问 关于 这 个 形容 词 的 最 熟悉 的 词 的 第 一 反应 是 什么 ,首先 反映 出 来 的 通常 就 是 它 的 反 
义 词 。 图 5-2 所 示 的 是 形容 词 之 间 的 相似 和 反 义 关 系 。 


< 


S 
SD @ 


图 5-2 形容 词 之 间 的 相似 和 反 义 关系 


(2) 等 级 / 序 关系 (Gradation)。 一 个 有 等 级 的 形容 词 可 以 被 定义 为 能 被 程度 副词 修饰 
的 形容 词 , 这 些 程度 副词 包括 very、decidedly ,intensely rather quite、 somewhat、 pretty、 
extermely 等 。 大 多 数 形容 词 的 等 级 或 序 关 系 是 通过 形态 变化 规则 来 实现 的 , 即 形容 词 的 比 
较 级 和 最 高 级 。 

(3) 标志 性 (Markedness)。 某 些 形容 词 使 用 时 存在 非 对 称 性 ,如 “这 块 石头 有 100 克 ” 
意味 着 "100 克 重 ”而 非 *100 克 轻 ”…“ 重 ”是 缺 省 .“ 轻 ”具有 标志 性 。 类 似 的 例子 还 有 不 少 。 

(4) 多 义 性 ,选择 优先 (Polysemy and Selectional Preferences)。 

关系 型 的 形容 词 (Relational Adjectives) 是 形容 词 中 的 另 一 个 大 类 。 这 种 形容 词 只 能 
出 现在 定语 位 置 ,其 作用 和 和 名词 很 像 , 如 dental hygiene( 牙 齿 卫 生 )。 在 WordNet 中 ,一 个 
关系 型 形容 词 的 同义词 集合 包含 一 个 相应 的 名 词 指针 。 例 如 , { stellar，astral ，sidereal， 
noun. object: star} ,表示 关系 性 形容 词 stellar、astral,sidereal 与 名 词 star 相关 。 

3) 对 于 动词 而 言 

动词 在 大 数据 分 析 中 作用 是 很 重要 的 ,通常 是 一 个 事件 的 核心 。 在 WordNet 中 ,动词 
被 分 为 15 个 基本 语义 类 ,具体 如 下 。 

(1) 身体 动作 动词 (Verbs of Bodily Functions and Care) ,含有 275 个 同义词 集合 。 

(2) 变化 动词 (Verbs of Change) .含有 约 750 个 同义词 集合 。 

(3) 通信 动词 (Verbs of Communication) ,含有 710 个 以 上 的 同义词 集合 。 

(4) 竞争 动词 (Competition Verbs) .含有 200 个 以 上 的 同义词 集合 。 

(5) 消费 动词 (Consumption Verbs), 含 有 130 个 同义词 集合 。 
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(6) 接触 动词 (Contact Verbs) .含有 820 个 同义词 集合 。 

(7) 创造 动词 (Creation Verbs) ,含有 250 个 同义词 集合 。 

(8) 运动 动词 (Motion Verbs) ,含有 500 个 同义词 集合 。 

(9) 状态 动词 (Stative Verbs) ,含有 约 200 个 同义词 集合 。 

(10) 感知 动词 (Perception Verbs) ,含有 约 200 个 同义词 集合 。 

(11) 领 属 动词 (Verbs of Possession) ,含有 约 300 个 同义词 集合 。 

(12) 社会 交互 (Verbs of Social Interaction) ,含有 约 400 个 同义词 集合 。 

(13) 气象 动词 (Weather Verbs) ,含有 约 66 个 同义词 集合 。 

(14) 情感 心理 动词 (Emotion or Psych Verbs) 。 

(15) 认 知 心理 动词 (Cognition Verbs) 。 

除 此 以 外 ,在 WordNet 中 还 定义 了 动词 和 同义词 集合 中 的 词汇 与 语义 关系 ,具体 有 以 
下 几 种 。 

(1) 继承 /蕴含 (entailment): 有 些 动词 之 间 存 在 蕴含 关系 ,如 snore( 打 身 ) 萄 含 了 sleep 
(睡觉 ) 。 这 种 关系 有 些 像 名 词 中 的 整体 和 部 分 关系 。 这 种 关系 也 体现 在 动词 的 分 类 树 中 ， 
即 动词 层级 分 类 体系 。 在 大 多 情况 下 , 分 类 层级 不 超过 4 层 , 如 Communicate -talk - 
[ babble / -mumble / -slur / -murmur / -bark ] -write。 

(2) 语义 相反 关系 (Semantic Opposition Among Verbs) : 又 可 以 分 为 没有 共同 的 上 位 
词 或 蕴含 动词 (如 buy/sell)、 状态 动词 (如 live/die、wake/sleep), 以 及 变化 动词 (如 
lengthen/shorten \strengthen/weaken) 。 

(3) 致使 语义 关系 (The Cause Relation) : 这 种 关系 连带 两 个 动词 概念 ,一 个 是 因 ( 如 
give) , 另 一 个 是 果 ( 如 have)。 英 语 中 致使 语义 关系 的 动词 的 例子 有 show -see( 展 现 一 看 
见 ) 和 say -listen (说 一 听 ) 等 。 

其 他 情景 下 的 语义 关系 还 包括 多 义 词 (Polysemy) 等 。 

4) 对 于 副词 而 言 

副词 修饰 名 词 之 外 的 其 他 语言 成 分 ,包括 动词 .形容 词 .其 他 副词 小 句 或 整 句 , 它 们 的 
语义 关系 表达 也 类 似 于 形容 词 。 

根据 以 上 的 叙述 ,总 结 一 下 WordNet 在 表达 词汇 语义 方面 的 优 缺点 。 

(1) WordNet 提供 了 丰富 的 名 词 ,形容 词 ` 动 词 和 副词 的 语义 关系 ,这 些 语 义 关 系 具 有 
很 好 的 心理 学 和 语言 学 的 理论 基础 ,语义 关系 有 较 详 细 的 划分 。 

(2) WordNet 针对 的 是 正规 的 词汇 ,对 于 常用 的 英文 单词 具有 很 好 的 参考 价值 。 

(3) 它 缺 乏 对 新 记 ,特别 是 互联 网 新 闻 的 支持 。 往 WordNet 中 增加 新 的 词汇 需要 对 现 
有 的 词汇 语义 网 络 做 适当 修改 ,而 这 种 修改 的 专门 知识 要 求 比 较 严格 。 

(4) WordNet 没有 关于 词语 的 句法 结构 信息 , 它 不 是 在 文本 和 篇 章 结 构 上 描述 词语 和 
概念 的 含义 。 

(5) 没有 不 同类 词语 之 间 的 关系 .如 (scholar -teacher -/-teach) 。 

(6) 不 区 分 “is a kind of” 和 “is used as a kind of” 的 关系 ,没有 "is not a kind of” 的 关系 
表示 。 

2. 中 文 语义 知识 库 

知 网 (HowNet) 是 一 个 以 汉语 和 英语 的 词语 所 代表 的 概念 为 描述 对 象 的 ,以 揭示 概念 
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与 概念 之 间 的 关系 ,以 及 概念 所 具有 的 属性 与 属性 之 间 的 关系 为 基本 内 容 的 常识 知识 库 。 
类 似 于 英文 知识 库 WordNet, 它 把 概念 与 概念 之 间 的 关系 ,以 及 概念 的 属性 与 属性 之 间 的 
关系 形成 一 个 网 状 的 知识 系统 。 

类 似 于 WordNet, 知 网 者 认为 世界 上 一 切 事物 (物质 的 和 精神 的 ) 都 在 特定 的 时 间 和 空 
间 内 不 停 地 运动 和 变化 。 因 此 它 运算 和 描述 的 基本 单位 是 万 物 , 其 中 包括 物质 的 和 精神 的 
两 类 ,部件 、. 属 性 时间、 空间 、 属 性 值 及 事件 。 关 于 这 些 基本 部 件 之 间 关 系 的 基本 假设 如 下 。 

(1) 一 切 事物 都 可 以 分 解 为 部 件 , 每 个 事物 可 能 是 另 一 个 事物 的 部 件 。 例 如 ,房子 可 以 
分 解 为 地 板 . 门 . 窗 等 部 件 , 而 房子 本 身 是 小 区 的 一 个 部 件 。 即 使 是 空间 和 时 间 也 可 以 进行 
分 解 。 空 间 可 以 分 解 为 上 下 左右 ; 时 间 可 以 分 解 为 过 去 、 现 在 和 未 来 。 

(2) 任何 事物 都 包含 多 种 属性 。 例 如 ,人 有 年 龄 ,肤色 学历 .身高 .体重 等 多 种 属性 ,这 
些 属性 有 各 自 的 取 值 ,不 同 的 取 值 就 构成 了 形形色色 的 人 。 

这 两 个 基本 假设 与 计算 机 科学 中 的 面向 对 象 的 思想 有 很 多 相似 之 处 ,都 是 认识 世界 的 
方法 。 

知 网 作为 一 个 知识 系统 ,所 要 反映 的 是 概念 的 共性 和 个 性 ,描述 概念 与 概念 之 间 和 概念 
的 属性 与 属性 之 间 的 各 种 关系 ,以 网 络 的 形式 来 描述 了 整个 知识 系统 。 图 5-3 所 示 的 是 知 
网 知识 体系 的 一 个 典型 示例 ,描述 了 医生 、 患 者 、 医 院 所 构成 的 知识 体系 。 在 这 个 知识 体系 
中 ,表达 了 场所 (医院 ) .工具 (医药 ) 等 关系 。 
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图 5-3 知 网 的 知识 体系 


总 体 来 说 , 知 网 描述 了 下 列 各 种 概念 关系 ,这 些 关系 是 词汇 各 种 典型 语义 关系 的 具体 
表达 。 
(1) 上 下 位 关系 (由 概念 的 主要 特征 体现 ) 

(2) 同 义 关系 (可 通过 ( 同 义 、 反 义 以 及 对 义 组 的 形成 ) 获 得 ) 

(3) 反 义 关系 (可 通过 《 同 义 、 反 义 以 及 对 义 组 的 形成 ) 获 得 ) 

(4) 对 义 关系 (可 通过 《 同 义 、 反 义 以 及 对 义 组 的 形成 ) 获 得 ) 

(5) 部 件 一 整体 关系 (由 在 整体 前 标注 % "体现 ;如 * 心 "“CPU” 等 ) 
(6) 属性 一 宿主 关系 (由 在 宿主 前 标注 *&” 体 现 , 如 “颜色 ”“ 速 度 ” 等 ) 
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(7) 材料 一 成 品 关 系 (由 在 成 品 前 标注 "?” 体 现 ,如 “ 布 "“ 面 粉 ” 等 ) 

(8) 施 事 / 经 验 者 /关系 主体 一 事件 关系 (由 在 事件 前 标注 "< * ”体现 ,如 “医生 ”、“ 雇 
主 ?等 ) 

(9) 受 事 / 内 容 / 领 属 物 等 一 事件 关系 (由 在 事件 前 标注 $ ”体现 ,如 “患者 ”“ 雇 员 ” 等 ) 

(10) 工具 一 事件 关系 (由 在 事件 前 标注 * ”体现 ,如 “手表 ”“ 计 算 机 ”等 ) 

(11) 场所 一 事件 关系 (由 在 事件 前 标注 “<@ ?体现 ,如 "银行 "“ 医 院 ? 等 ) 

(12) 时 间 一 事件 关系 (由 在 事件 前 标注 "@” 体 现 ,如 “假日 "“ 孕 期 "等 ) 

(13) 值 一 属性 关系 (直接 标注 无 须 借助 标识 符 , 如 “ 蓝 ”、“ 慢 "等 ) 

(14) 实体 一 值 关系 (直接 标注 无 须 借助 标识 符 , 如 “矮子 ”“ 傻 瓜 ” 等 ) 

(15) 事件 一 角色 关系 (由 加 角色 名 体现 ,如 “购物 ”“ 盗 墓 "等 ) 

(16) 相关 关系 (由 在 相关 概念 前 标注 # ”体现 ,如 “谷物 ”“ 煤 田 ” 等 ) 

HowNet 的 建设 方法 的 一 个 重要 特点 是 采用 自 上 而 下 的 归纳 的 方法 。 通 过 对 全 部 的 基 
本 义 原 进行 观察 分 析 并 形成 义 原 的 标注 集 , 然 后 再 用 更 多 的 概念 对 标注 集 进行 考核 , 据 此 建 
立 完 善 的 标注 集 。 

在 HowNet 中 , 义 原 是 最 基本 的 \ 不 易于 再 分 割 的 意义 的 最 小 单位 。 所 有 的 概念 都 是 
由 各 种 各 样 的 义 原 组 成 的 。 在 构造 义 原 时 ,所 用 方法 的 一 个 重要 特点 是 对 大 约 6000 个 汉字 
进行 考查 和 分 析 来 提取 这 个 有 限 的 义 原 集合 。 

词语 的 概念 称 为 义 项 ,如 “ 曹 "在 普通 词典 中 主要 的 义 项 是 “ 姓 ”。 基 于 义 项 ,词语 和 上 下 
文 可 以 进行 一 些 语义 计算 。 例 如 ,关于 “ 打 ” 有 两 个 义 项 ,分 别 描述 如 下 。 











NO. = 000001 
WC= 打 

GiC=Y 

E_C= ~~ 章 油 ,~~ 张 票 ,~~ 饭 ,去 一 瓶 酒 , 醋 匀 来 了 
WE=buy 

GE=V 

BE= 

DEF = buy| 买 


NO. = 015492 
WC= 打 

GC=V 

E_C= ~ 毛衣 ,一 毛 裤 , ~ 双 毛 袜子 , ~ 草鞋 , ~ 一 条 围巾 , ~~ 麻 绳 , ~~ 条 辫子 
WE=knit 

GE=V 

EE= 

DEF = weave | 关 编 


假如 要 判定 的 歧义 语 境 是 “我 打 的 酒 很 香 "。 通 过 对 "* 酒 "与 “ 饭 " 等 的 语义 距离 的 计算 及 
与 “毛衣 ”等 语义 距离 计算 的 比较 ,就 会 得 到 一 个 正确 的 歧义 判定 结果 。 

知 网 对 概念 的 描述 是 要 着 重 体现 概念 与 概念 和 概念 的 属性 与 属性 之 间 的 相互 关系 , 因 
此 , 知 网 对 于 概念 的 描述 必然 是 复杂 的 。 总 体 来 看 ,HowNet 包含 了 事件 类 概念 .数量 类 概 
念 .单位 类 概念 .事物 类 概念 ,部件 类 概念 等 主要 概念 。 一 些 概 念 的 描述 示例 分 别 说 明 如 下 。 
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(1) 事件 类 概念 : 以 事件 为 中 心 的 复杂 概念 。 


扭亏 为 航 : DEF = alter | 改变, StateIni = InDebt | 亏损 ,StateFin = earn| 赚 


(2) 数量 类 概念 : 


味道 : DEF = attribute| 属 性 , taste| 味 道 ,&edible| 食 物 


(3) 单位 类 概念 : 
公里 : DEF = unit | 单位 ,&length| 长 度 


(4) 事物 类 概念 : 


男士 : DEF = human| 人 , male| 男 
高 手 : DEF = human| 人 ,able| 能 ,desired| 良 


(5) 部 件 类 概念 : 


心脏 : DEF = part| 部 件 , % RnimalHuman| 动 物 , heart| 心 
CPU: DEF = part | 部 件 , % computer| 计 算 机 ，heart| 心 


相 比 WordNet 而 言 ,HowNet 选择 词语 的 依据 是 建立 于 4 亿 字 汉语 语料库 按 出 现 频率 
形成 的 词语 表 的 ,而 不 是 仅仅 依据 某 一 部 现 有 的 词典 。 知 识 词典 很 注意 收集 已 经 流行 又 有 
较 固定 可 能 的 词语 ,如 "因特网 ”~ 欧元 交 二 咀 英 区 下 载 交 点 击 光 黑客 ”等 。 

整个 知 网 系统 包括 了 若干 个 数据 文件 和 程序 ,主要 有 中 英 双 语 知识 词典 ` 知 网 管理 工 
具 、 知 网 说 明文 件 等 。 其 中 说 明文 件 包含 动态 角色 与 属性 、 词 类 表 、 同 义 、 反 义 ,以 及 对 义 组 
的 形成 .事件 关系 和 角色 转换 ,标识 符号 及 其 说 明 。 知 网 的 规模 主要 取决 于 双语 知识 词典 数 
据 文件 的 大 小 。 由 于 它 是 在 线 的 ,修改 和 增删 都 很 方便 ,因此 它 的 规模 是 动态 的 。 它 的 规模 
通常 以 词语 的 条 数 及 由 词语 所 表述 的 概念 的 条 数 计算 。 作 为 2.0 版 , 它 现 有 规模 如 表 5-2 
和 表 5-3 所 示 。 

表 5-2 HowNet2.0 中 的 词汇 数量 
语种 词语 总 数 N Vv A 








汉语 50 220 26 037 16 657 9768 
英语 55 422 28 876 16 706 10716 





表 5-3 HowNet2.0 中 的 概念 数量 























语种 概念 总 数 N 竺 A 
汉语 62 174 29 787 20 468 LL LS 
英语 72 994 36 770 21 203 14 339 





严格 来 讲 , 知 网 是 一 个 以 上 述 各 类 概念 为 描述 对 象 的 知识 系统 ,而 不 是 一 部 义 类 词典 。 
知 网 是 把 概念 与 概念 之 间 的 关系 ,以 及 概念 的 属性 与 属性 之 间 的 关系 形成 一 个 网 状 的 知识 
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系统 。 这 是 它 与 其 他 的 树 状 的 词汇 数据 库 的 本 质 不 同 。 只 不 过 是 利用 这 种 知识 库 , 结 合 其 
他 的 工具 ,可 以 更 加 有 效 地 让 计算 机 进行 语义 分 析 , 揭 示 多 重 语义 关系 网 络 。 

根据 上 述 的 介绍 ,下 面 简单 比较 一 下 WordNet 和 HowNet 两 种 知识 库 。 

(1) WordNet 是 一 套 英语 词汇 数据 库 , 而 HowNet 是 一 个 以 汉语 和 英语 的 词语 所 代表 
的 概念 为 描述 对 象 ,以 揭示 概念 与 概念 之 间 及 概念 所 具有 的 属性 与 属性 之 间 的 关系 为 基本 
内 容 的 常识 知识 库 。 在 内 部 结构 上 ,WordNet 是 一 种 层次 结构 ,而 HowNet 是 一 种 网 状 
结构 。 

(2) 两 者 都 以 一 种 “模式 假设 "(Patterning Hypothesis) 为 前 提 和 理论 基础 。 但 两 者 的 
理论 基础 不 同 之 处 也 很 多 。WordNet 的 一 个 较 主 要 的 理论 基础 是 “可 分 离 性 假设 ” 
(Separability Hypothesis), 即 语言 的 词汇 成 分 可 以 被 分 离 出 来 并 专门 针对 它 加 以 研究 。 
HowNet 的 最 重要 的 理论 基础 是 它 的 哲学 ,关于 世界 构成 的 看 法 。 

(3) 两 者 的 建设 方法 最 明显 的 相同 之 处 就 是 自 上 而 下 的 方法 。 有 具体 来 说 , WordNet 是 
以 同义词 集合 作为 基本 构建 单位 进行 组 织 的 。HowNet 则 是 先 提取 义 原 , 以 它 为 基本 构建 
单位 进行 组 织 。WordNet 的 基本 设计 原理 是 它 的 “词汇 矩阵 模型 ", 当 某 个 词 有 多 个 同义词 
时 ,通常 同义词 集合 足以 满足 差异 性 的 要 求 。 语 义 关 系 就 用 同义词 集合 之 间 的 一 些 指针 来 
实现 描述 。 而 HowNet 是 以 概念 及 其 属性 为 基础 ,描述 它们 所 构成 的 一 种 网 状 知识 系统 。 

(4) 从 描述 的 关系 来 看 ,两 者 都 描述 了 上 下 位 关系 ,WordNet 是 词义 之 间 的 语义 关系 。 
HowNet 的 上 下 位 关系 由 概念 的 主要 特征 体现 ,也 具有 继承 关系 。 同 义 关 系 在 两 个 知识 库 
中 都 有 ,只 是 WordNet 的 同 义 关系 是 显 性 的 ,而 HowNet 的 同 义 关 系 是 隐 性 的 。 对 于 反 义 
关系 来 说 , WordNet 采取 了 直接 反 义 和 间接 反 义 两 种 关系 都 包括 的 方法 。 但是, HowNet 
中 的 反 义 关 系 比 WordNet 中 定义 的 要 宽泛 一 些 。 

(5) 从 应 用 角度 来 看 ,两 者 都 在 进行 语义 排 歧 ,语义 分 析 、 语 料 库 语义 标注 、 信 息 过 滤 和 
分 类 、 机 器 翻译 等 方面 有 着 十 分 广泛 的 应 用 。 

3. 其 他 专门 资源 

其 他 的 专门 资源 针对 同义词 .情感 词 等 。 

《同义词 词 林 ) 按 照 树 状 的 层次 结构 把 所 有 收录 的 词 条 组 织 在 一 起 ,把 词汇 分 成 大 中、 
小 三 类 ,大 类 有 12 个 ,中 类 有 97 个 ,小 类 有 1400 个 。 每 个 小 类 中 都 有 很 多 词 ,这 些 词 又 根 
据 词 义 的 远近 和 相关 性 分 成 了 若干 个 词 群 (段落 )。 每 个 段落 中 的 词语 又 进一步 分 成 了 若干 
个 行 ,同一 行 的 词语 要 么 词义 相同 ,要 么 词义 相关 。 

情感 词汇 类 主要 有 2007 年 知 网 发 布 的 (情感 分 析 用 词语 集 (Beta 版 )》 和 台湾 大 学 的 
《简体 中 文 情 感 极 性 词典 ?等 。 在 这 些 情 感 词语 集中 :一般 对 词汇 的 情感 标签 进行 了 标注 , 主 
要 的 类 别 有 以 下 6 种 。 

(1) 体现 “正面 情感 ”的 词语 ,如 赞赏 .快乐 .喜欢 .好 奇 . 喝 彩 、 魂 牵 梦 蒙 等 。 

(2) 体现 “负面 情感 ”的 词语 ,如 悲伤 .半信半疑 .鄙视 ,不 满意 后悔 .大失所望 等 。 

(3) 体现 “正面 评 价 的 词语 :如 不 可 或 缺 . 才 高 八 斗 , 沉 鱼 落雁 、 催 人 奋进 、 动 听 等 。 

(4) 体现 “负面 评价 ?的 词语 ,如 超标 、 华 而 不 实 、 荒 凉 、. 混 浊 、 畸 轻 畸 重 、 价 高 .空洞 无 
物 等 。 

(5) 体现 "程度 级 别 ?的 词语 :如 十 分 .轻微 .特别 .比较 等 。 

(6) 表达 "主张 ”的 词语 ,如 认为 、 提 倡 等 。 
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情感 词汇 集 规 模 一 般 不 大 ,但 是 在 文本 情感 分 析 中 通常 作为 一 种 基础 知识 ,使 词汇 能 够 


s.2.3 词 向 量 


对 于 基于 知识 库 的 词汇 语义 分 析 方法 ,其 准确 性 依赖 于 知识 库 的 质量 和 构建 方法 。 此 
外 ,目前 的 知识 库 并 没有 收录 完整 的 所 有 词汇 ,因此 对 于 互联 网 大 数据 处 理 而 言 ,可 能 会 遇 
到 很 多 的 新 词 , 这 样 基于 知识 库 就 无 法 进行 分 析 了 。 

词 向 量 (Word Embedding) ,顾名思义 ,就 是 采用 向 量 来 表示 词 。 它 是 一 种 基于 语义 的 
词汇 表示 方法 ,是 最 近 若 干 年 发 展 起 来 的 一 种 词汇 语义 表示 和 处 理 方法 。 它 的 特点 是 将 每 
个 词汇 表示 为 一 个 固定 长 度 的 向 量 , 从 目前 的 一 些 例子 来 看 ,不 同 的 向 量 之 间 具 有 一 定 的 三 
角 不 等 性 关系 。 

从 研究 发 展 历史 来 看 , 词 向 量 起 源 于 Hinton 在 1986 年 发 表 的 论文 ,后 来 在 Bengio 的 
ffnnlm 论文 中 ,被 得 到 更 进一步 的 研究 ,但 它 真 正 被 人 们 所 熟知 ,应 该 是 word2vec 作为 一 
个 应 用 开发 系统 的 开源 。 

词 向 量 的 构造 方式 有 两 种 , 即 One-hot Representation 和 Distributed Representation 。 

One-hot Representation 表示 方法 是 把 每 个 词 表示 成 一 个 很 长 的 向 量 , 这 个 向 量 的 维度 
是 整个 语料库 中 词 的 总 数 ,每 一 维 代表 语料库 中 的 一 个 词 , 因 此 每 个 向 量 中 只 有 一 个 元 素 为 
1, 其 他 的 为 0。 假 设 语料库 包含 以 下 3 个 文档 : 





Ilike deep learning. 
I like NLP. 
I love Fudan. 


则 该 语料库 的 词 表 为 (I, like,，deep, learning，NLP, love. Fudan) ,其 对 应 的 One-hot 
Representation 的 表达 方式 为 : 


[1000000] ->I 
[0100000] ->1ike 
[0010000] ->deep 
[0001000] ->1earning 
[0000100] ->NLP 
[0000010] ->1ove 
[0000001] -> Fudan 


很 容易 看 出 ,One-hot Representation 的 表示 方法 存在 很 多 问题 , 它 只 能 说 明 词 是 否 出 
现 , 而 不 能 表达 词 与 词 之 间 的 关系 , 即 任 意 词 之 间 都 是 独立 的 ,上 文中 like 和 love 就 是 如 
此 ; One-hot Representation 还 会 导致 “ 维 数 灾难 ”, 在 语料库 规模 不 断 增 大 的 情况 下 ,该 语 
料 库 的 词 表 就 不 断 增长 ,从 而 导致 词 向 量 的 维度 不 断 增 加 , 带 来 “ 维 数 灾难 ”。 

而 采用 Distributed Representation 表示 方法 来 将 词汇 表示 成 为 一 种 低 维 实数 向 量 , 避 
免 了 稀 玻 矩阵 带 来 的 “ 维 数 灾难 ,并 且 可 以 通过 语义 生成 向 量 。 其 基本 思想 是 通过 训练 将 
每 个 词 映射 成 一 个 固定 维度 的 向 量 .通过 词 之 间 的 距离 ( 欧 氏 距离 .余弦 相似 度 ) 来 判断 两 个 
词 之 间 的 语义 相似 度 ,一 般 该 向 量 的 维度 远 小 于 该 语料库 词 表 的 大 小 。 
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到 目前 为 止 ,所 有 词 向 量 的 训练 方法 都 是 在 训练 语言 模型 过 程 中 得 到 词 向 量 的 。 语 言 
模型 是 根据 客观 事实 进行 的 一 种 数学 建 模 ,是 一 种 对 应 关系 ; 语言 模型 在 机 器 翻译 ,语音 识 
别 等 领域 中 的 作用 非常 大 ,如 在 机 器 翻译 中 得 到 若干 供 挑选 的 结果 后 ,可 以 用 语言 模型 挑选 
出 最 合适 的 结果 。 

语言 模型 的 数学 表示 为 : 给 定 一 个 字符 串 tw ,wz，…,w,, 计 算 它 是 自然 语言 的 概 
率 p(wi,two，… ,wi), 即 

pw ,ts) =pw) Xplws | tw) X plws | wi ,wz) 





XX pw | ws ,wl) 

采用 神经 网 络 训 练 语言 模型 的 思想 最 早 由 徐 伟 在 2000 年 提出 ,他 提出 采用 神经 网 络 构 
建 一 种 二 元 语言 模型 。 而 最 经 典 的 用 神经 网 络 训 练 语言 模型 的 算法 由 Benjio 在 2001 年 提 
出 ,Bengio 采用 三 层 神经 网 络 模型 来 构建 语言 模型 ,神经 网 络 语言 模型 (Neural Network 
Language Mode, NNLM) 比 普通 的 N-gram 模型 效果 要 好 10% ~20%。Andriy Mnih 和 
Geoffrey Hinton 在 2007 年 建立 了 Log-Linear 模型 , 随后 他 们 不 断 改 进 该 模型 并 参考 
Bengio 的 神经 网 络 语言 模型 ,最 后 建立 了 层次 的 Log-Bilinear 模型 ,该 模型 较 Benjio 的 神经 
网 络 语言 模型 效果 有 一 定 的 提升 。 目 前 ,主流 的 训练 词 向 量 和 语言 模型 的 方法 是 基于 Log- 
Bilinear 模型 的 ,包括 连续 词 袋 模型 (CBOW) 和 Skip-Gram 模型 这 两 个 最 常用 的 模型 ,这 两 
个 模型 均 采 用 层次 Softmax 和 Negative Sampling 算法 进行 近似 求解 ,从 而 降低 模型 的 复杂 
度 , 让 两 个 模型 能 够 大 规模 地 进行 词 向 量 的 训练 。 

连续 词 袋 模型 (Continuous Bag-of-Words Model, CBOW) 是 一 种 与 神经 网 络 语言 模型 











类 似 的 模型 ,不 同 点 在 于 连续 词 袋 模型 去 掉 了 神经 网 络 模型 中 的 隐藏 层 ,将 模型 变 成 了 一 个 
线性 的 模型 。 该 模型 如 图 5-4 所 示 。 
INPUT PROJECTION OUTPUT 
Wi-2) 
W(t-1) 
SUM 








W(t+1) 





W(1+2) 








图 5-4 连续 词 袋 模型 


关于 该 模型 中 的 参数 ,INPUT 为 输入 层 .PROJECTION 为 投影 层 .OUTPUT 为 输出 
层 , 上 (ti) 为 当前 要 预测 的 词 ,zw(: 一 2) w(t 一 1) w(t 十 1) w(t 十 2) 为 当前 词 的 上 下 文 ,SUM 
为 当前 词 上 下 文 向 量 的 累加 和 。 
连续 词 袋 模型 的 目标 是 给 出 下 面 的 预测 值 : 
pw | Wis WER TO yy TOM 


在 连续 词 袋 模型 中 ,求解 梯度 时 的 计算 量 与 词 表 的 大 小 成 正比 ,十 分 耗 时 ,所 以 采用 两 
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种 算法 : 层次 Softmax 和 Negative Sampling 近似 求解 ,这 里 将 详细 介绍 层次 softmax 算 
法 。 该 算法 的 详细 模型 如 图 5-5 所 示 ,模型 的 3 个 层次 说 明 如 下 。 


MContext(w)) VlContext(w)s) VLContext(w).) 












































ImNPur| | | 

SUM< 之 
PROJECTION wi 
OUTPUT 去 元 





图 5-5 层次 Softmax 算法 模型 


(1) 输入 层 (INPUT): 包含 Context(w) 中 的 2c 个 词 的 词 向 量 VCContext (tw)1)， 
V(Context(tw),),*…*,V(Context(w)z.)€E R" ,其 中 为 词 向 量 的 维度 。 这 里 的 Context (tw) 
是 指 w 的 上 下 文 ,ce 为 一 个 窗口 , 即 在 w 的 上 下 文中 选 出 2c 个 词 ,用 来 预测 ww。 

(2) 投影 层 (PROJECTION) : 将 输入 层 中 2c 个 向 量 求 和 , 即 


2c 
Xu。 = DV Context(w);) ER” (5-1) 
i=] 


(3) 输出 层 (OUTPUT) : 对 应 一 棵 二 又 树 , 是 以 语 料 中 出 现 的 词 为 叶子 结 点 ,以 词 在 语 
料 中 出 现 的 次 数 为 权 值 构造 出 的 Huffman 树 , 树 中 叶子 结 点 共有 N 个 ,分 别 对 应 词 表 中 出 
现 的 词 , 非 叶子 结 点 为 N 一 1 个 ( 即 图 中 黑色 结 点 ), 非 叶子 结 点 为 逻辑 回归 (Logistic 
Regression) 分 类 器 。 

Word2vec 的 重要 技术 就 是 针对 词 频 进行 Huffman 编码 ,使 得 词 频 相 似 的 词汇 隐藏 层 
激活 的 内 容 基 本 一 致 。 这 样 , 出 现 频率 越 高 的 词语 ,激活 的 隐藏 层 数目 就 越 少 ,通过 这 种 方 
式 有 效 地 降低 计算 的 复杂 度 。Word2vec 能 够 准确 并 快速 地 训练 词 向 量 , 使 用 者 不 需要 像 使 
用 如 神经 网 络 语言 模型 训练 词 向 量 一 样 等 待 很 长 时 间 。 

下 面 详细 描述 层次 Softmax 的 连续 词 袋 模型 的 数学 表示 。 在 层次 Softmax 算法 中 引入 
Huffman 树 来 进行 优化 计算 .所 以 可 以 设 定 父 结 点 左 子 结 点 编码 为 1, 表示 负 类 ; 右 子 结 点 
编码 为 0, 表示 正 类 。 

假设 参数 : 

吃 : 从 树 根 到 叶子 结 点 w 的 路 径 中 ,第 j 个 结 点 对 应 的 编码 0 或 1, 分 别 表示 类 和 
负 类 。 

好 : 非 叶子 结 点 向 量 .同时 在 分 类 中 表示 类 别 向 量 。 

则 正 类 概率 为 : 

i 


aCXIO) = 
1 十 ep 





(5-2) 
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负 类 概率 为 : 1 一 cCXIO) 
假设 对 于 词典 中 的 每 个 词 w, 路 径 中 有 /* 个 结 点 ,那么 


的 





plw | Context(ro)) = [[ pay | Xe ,02 (5-3) 
j=2 
其 中 
o( XY1), 二 0 
Dar | Xr) =1 (5-4) 
1—o(XW}i), dd} =1 
对 于 S 个 句子 组 成 的 语料库 C 有 : 


本 
LCX,0) = [Te | ContextC(w)) = TT TT TI pCa? | X, ,0%) (5-5) 


sEC wEs 5EC wEs j=2 


取 对 数 似 然 函数 ,其 中 参数 为 X。 和 O07。 


有 
logL(X,0)= >) >) D>)logp(dy | Xu 081) 


sEC wEs j=2 


的 


= >) >) D0 — 4d)logo( X01) + dylog(l—o( XY))] (5-6) 


3EC wes j=2 
采用 梯度 下 降 法 进行 求解 , 令 损失 函数 为 : 
fw1)) =— (1—dy)logo( XI0%1) + dylog(1 — ol XI0¥1))) 
f(tws 让 关于 仿 1 和 XX。 的 梯度 为 ; 
A ==]1 = XW (5-7) 
nor 


ED =—[1— dy —o( XY 0 (5-8) 


连续 词 袋 模型 采用 层次 Softmax 算法 进行 计算 ,大 大 提升 了 模型 的 求解 规模 , 若 不 采用 
二 叉 树 而 是 直接 采用 传统 的 Softmax 算法 进行 计算 ,算法 的 复杂 度 为 O(n), 采 用 层次 
Softmax 算法 计算 后 ,复杂 度 降低 为 O(logn) 。 

Skip-Gram 模型 是 第 二 种 训练 词 向 量 和 语言 模型 的 方法 。 

连续 词 袋 模型 中 输入 层 可 以 为 若干 个 词 向 量 , 中 间 的 隐 层 为 词 向 量 的 累加 ,而 输出 层 为 
累加 和 的 一 个 向 量 ,Skip-Gram 模型 与 连续 词 袋 模型 正好 相反 。 

Skip-Gram 模型 如 图 5-6 所 示 。 

Skip-Gram 模型 是 预测 pCwi|w,) ,其 中 ,1 一 ci 过 1 十 c 且 i 关 4,c 为 上 下 文中 词 的 数量 ， 
是 决定 上 下 文 窗口 大 小 的 常数 ,c 越 大 则 需要 考虑 的 上 下 文 语 境 就 越 多 ,一 般 能 够 带 来 更 精 
确 的 结果 ,但 是 训练 时 间 也 会 增加 。 针 对 一 个 ww ,tws，… ,wr 的 词 序列 ,Skip-Gram 的 目标 

等 

是 寻找 参数 集合 来 最 大 化 天守 ”logpCaes | av) 的 值 。 


1=1 -jejz0 
采用 Softmax 回归 将 p(wi|w,) ,1 一 c 过 i 过 1 十 c 且 i 关 1 转化 为 基本 的 Skip-Gram 模型 ; 


exp(u T vw ) 
plwo | wi) = 一 (5-9) 


/ 
> exp(v A ) 
w=1 


式 中 ,v6 和 wh, 为 ww 的 输入 .输出 向 量 表示 ,W 为 词 表 中 词 的 数量 。 
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INPUT PROJECTION OUTPUT 
Wl-2) 
Wl) 
WN) 一 一 
W(t+1) 
有 FUr+H2) 








图 5-6 Skip-Gram 模型 


从 式 (5-9) 可 以 看 出 ,Skip-Gram 模型 是 一 个 对 称 的 模型 , 即 p(wo|ww1) 二 pCvwi|wo)。 

Skip-Gram 模型 同样 有 两 种 算法 : 层次 Softmax 和 Negative Sampling 近似 求解 ,这 里 
详细 介绍 层次 Softmax 算法 。 其 详细 模型 图 与 上 文中 连续 词 袋 模型 相似 ,这 里 做 简单 描述 ， 
每 个 词 可 以 从 树 的 根 结 点 沿 着 唯一 的 一 条 路 径 被 访问 到 ,假设 zey7) 为 该 路 径 上 的 第 > 个 
结 点 ,并 且 L(w) 为 该 路 径 长 度 , 即 n(w,1)==root,n(w,L(w)) 二 ww。 

则 层次 Softmax 定义 的 概率 为 : 


L(zo) 一 1 
bm | wr) = IT ct[LaGe 十 D = chlnCw,))) J Nw vo} (5-10) 
j=1 
几 ， 如 果 > 为 真 
其 中 ,[[xj]]= :并且 ch(n(w, 站 ) 是 n(w,j) 的 左 子 结 点 或 右 子 结 
Lo， 如果 之 为 假 


1 
点 ， 一 一 ~- 
点 ,而 ol(x) emp = 


对 式 (5-10) 取 对 数 似 然 函 数 得 到 : 
Low—1 
log(pl(w | wi)) = bp log{c{[[Lza(w 十 1) = ch(a(z 放 )]] Nw.p vu, }} (5=11) 
i=1 
假设 为 第 j 层 , 则 对 应 该 层 的 损失 函数 为 ; 
f (vwp ,zur) =— log{o{[[nw,j++1) = ch nw 7)) Jv Nw vu, })} (5-12) 
可 分 以 下 两 种 情况 讨论 。 
(1) 如 果 [[nCwsj 十 了 二 chln(rw, 站 )]] 为 真 , 则 损失 函数 为 : 


f (vtw,p Wi) =— log(o(v Kp vw, )) (5-13) 
梯度 为 : 
2 一 一 (1 一 oa 和 na)aar 加 
了 am 
eeep WD) Te won (5-15) 


DrzoT 
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(2) 如 果 [[nCw,j 十 1) = 二 ch(n(w, 丫 )]] 为 假 , 则 损失 函数 为 : 





fvncwp yzor) =— log(1— ov Nw vw )) (5-16) 
= (ov Nw,p vw )) wr (5-17) 

Du' so /7 7/ 
vp om) oy 了 ep ua ) Uw) (5-18) 


gw 


至 此 ,完成 模型 训练 。 
本 节 最 后 介绍 词 向 量 开源 系统 的 使 用 方法 , Word2vec 是 Google 在 2013 年 开源 的 一 款 
将 词 表示 为 实数 值 向 量 的 高 效 工具 ,Word2vec 能 够 通过 训练 ,把 文本 内 容 的 处 理 转化 为 向 
量 空间 中 的 向 量 运 算 , 向 量 空间 上 的 相似 度 可 以 看 作文 本 语义 上 的 相似 度 。 同 时 ， 
Word2vec 采用 连续 词 袋 模型 和 Skip-Gram 模型 ,具有 高 效 性 ,其 作者 Mikolov 实现 了 一 个 
优化 的 单机 版 本 ,一 天 能 训练 上 千 亿 个 词 。 

Word2vec 下 载 地 址 为 http://word2vec. googlecode. com/svn/trunk/ ,如 果 无 法 在 
Google 下 载 ,也 可 以 在 github 上 找到 Word2vec 的 开源 代码 
将 Word2vec 开源 代码 解压 到 文件 夹 中 ,用 cd 命令 进入 到 该 文件 夹 目录 下 。 在 src 文 
下 执行 make 命令 进行 编译 
在 Word2vec 中 自 带 了 训练 数据 test8 ,test8 中 为 一 些 空格 隔 开 的 单词 ,共有 160 多 万 
个 单词 。 同 时 , Word2vec 中 自 带 了 一 些 脚本 供 其 使 用 ,可 以 直接 执行 脚本 程序 来 了 解 
Word2vec。 

例如 ,执行 “demo-word. sh” 脚 本 程序 
离 最 近 的 词 。 例 如 ,训练 完毕 后 ,输入 “beijing”, 3 
以 ”cosine distance” 作 为 距离 度量 方法 ,如 图 5-7 所 示 




















完成 训练 后 就 可 以 调用 "distance” 命 令 , 查 找 距 
返回 训练 集中 距离 











beijing 最 近 的 词 ， 


Enter word or sentence (EXIT to break): beijing 


NE 


penang 
"gk 





图 5-7 distance 的 相关 测试 示例 


执行 “demo-analogy. sh” 脚 本 程序 , 训 后 可 以 进行 向 量 加 减 工作 ,例如 ,计算 
“paris” 十 “france” 一 “berlin” 的 结果 .显示 出 最 接近 的 词 . 如 图 5-8 所 示 。 

下 面 介 绍 Word2vec 中 的 超 参 数 。 

(1) -size: 向 量 维 数 。 

(2) -window: 上 下 文 窗口 大 小 。 








第 5 章 。 大 数据 语义 分 析 技 术 





1 





paris Position in 


: france Position in vocabula 


: berlin Position in vocabulary 


Distance 





图 5-8 相关 测试 结果 


(3) -sample: 高 频 词 亚 采样 的 阔 值 

(4) -hs: 是 否 采 用 层次 softmax 

(5) -negative: 负 例 数目 

(6) -min-count; 被 截断 的 低频 词 阔 值 

(7) -alpha: 开始 的 学 习 

(8) -cbow: 使 用 CBOW 算法 

同时 ,Word2vec 遵循 Apache Licence2. 0 开源 协议 ,所 以 可 以 找到 多 种 编程 语言 的 
Word2vec 版 本 ,进行 再 次 开发 或 接口 调用 

目前 , 词 向 量 的 常见 用 法 列举 如 下 

(1) 直接 用 于 神经 网 络 模型 的 输入 层 。 如 将 词 向 量 作为 输入 ,用 递归 神经 网 络 完成 文 
本 情感 分 析 的 任务 。 与 潜在 语义 分 析 (Latent Semantic Index，LSI) 潜在 狄 立 克 雷 分 配 
(Latent Dirichlet Allocation, LDA) 的 经 典 过 程 相 比 , Word2vec 利用 了 词 的 上 下 文 ,语义 信 
息 更 加 丰富 。 

(2) 作为 辅助 特征 扩充 现 有 的 模型 。 如 将 词 向 量 作为 额外 特征 添加 到 SVM 模型 中 
进行 文本 情感 分 类 工作 或 普通 的 文本 分 类 ,也 可 以 用 于 POS、CHK、NER 等 任务 的 模 
型 中 。 

(3) 用 来 挖掘 词 与 词 之 间 的 关系 ,如 同义词 .词汇 类 推 (analogy) 运 算 等 。 

利用 Word2vec 计算 得 到 的 词 可 以 称 为 近义词 或 同义词 ,相似 度 较 高 的 词 在 语义 、 语 法 
和 语 用 层面 都 与 给 定 词 有 着 较 高 的 相似 度 。 词 汇 类 推 是 给 定 3 个 词汇 ab、c, 计 算 a 二 b 一 c 
之 类 的 结果 词汇 

(4) 用 于 机 器 翻译 。 分 别 训练 两 种 语言 的 词 向 量 ,再 通过 词 向 量 空 间 中 的 矩阵 变换 ,将 

-种 语言 转变 为 男 一 种 语言 

(5) 可 以 用 于 图 像 理 解 ,将 图 像 和 句子 关联 起 来 。DeViSE 就 是 这 个 应 用 方面 的 一 个 












模型 。 


5.2.4 词汇 的 语义 相关 度 计 算 


从 语义 关系 的 角度 量化 词汇 的 相关 性 是 一 项 基本 工作 ,从 而 可 以 利用 这 种 量化 结果 来 
衡量 词汇 之 间 的 联系 强 弱 。 在 应 用 领域 中 ,涉及 衡量 两 个 对 象 之 间 的 关系 ,通常 用 相关 度 或 
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相似 度 来 表示 ,这 些 概念 基本 上 是 相同 的 ,它们 都 可 被 看 作 是 一 种 距离 。 

在 数学 上 ,作为 一 种 距离 度量 d ,两 个 对 象 zy 应 当 满 足以 下 3 个 要 求 。 

(1) 对 称 性 , 即 d(x,y)==d(y.x)。 

(2) 非 负 性 , 即 dCz,y) 之 一 0。 

(3) 三 角 不 等 性 , 即 d(x,y) 十 d(y,z) 这 =d(zx,z)。 

一 些 经 典 的 距离 度量 方法 ,如 欧 氏 距离 能 满足 这 3 个 条 件 。 但 是 针对 语义 相关 度 的 距 
离 通 常 很 难保 证 三 角 不 等 性 ,因此 大 部 分 的 相关 度 度量 方法 设计 侧重 于 满足 (1) 和 (2) 要 求 。 

词汇 的 语义 相关 度 是 一 个 模糊 概念 ,无 法 像 欧式 距离 或 余弦 函数 一 样 具有 很 好 的 可 视 
化 。 可 以 认为 词汇 的 语义 相关 度 是 指 两 个 词汇 之 间 共 同 含义 部 分 的 多 少 , 如 果 两 个 词汇 之 
间 的 共同 含义 越 少 ,它们 的 语义 相关 度 就 越 小 。 

计算 词汇 之 间 的 语义 相关 度 有 两 种 途径 : 一 是 获得 词汇 的 语义 表示 ,再 基于 一 些 现 有 
距离 度量 来 计算 ; 二 是 采用 语义 知识 库 , 根 据 词 汇 在 知识 库 中 的 结构 来 计算 。 基 于 
Word2vec 的 相关 度 是 属于 第 一 种 方式 ,只 要 通过 开源 的 Word2vec 进行 词汇 语义 训练 后 就 
可 以 计算 ,当然 其 计算 准确 性 取决 于 训练 语 料 的 规模 。 本 节 主 要 介绍 第 二 种 方法 ,基于 
WordNet 语义 知识 库 , 根 据 其 知识 组 织 结构 ,目前 有 以 下 4 种 相关 度 计算 方法 。 

(1) 路 径 长 度 。 该 方法 主要 依据 Rada 提出 的 基于 最 短路 径 的 相似 度 度量 方法 ,将 两 个 
词义 概念 在 WordNet 层次 结构 树 上 最 短路 径 长 度 的 倒数 作为 两 者 的 相似 度 。 其 直观 含义 
在 于 ,如 果 两 个 词汇 在 WordNet 的 分 层 关系 树 中 的 路 径 越 短 , 那 么 它们 在 语义 上 的 关系 就 
越 相似 。 层 次 树 中 的 某 个 结 点 的 词汇 与 其 父 结 点 或 兄弟 结 点 的 词汇 之 间 的 相关 度 应 该 比 远 
离 它 的 其 他 结 点 词汇 的 要 大 。 因 此 ,其 计算 方法 定义 为 : 

pathlen(rzo ,roz) 一 zw 和 os 之 间 的 最 短路 径 中 的 边 数 

图 5-9 所 示 的 是 WordNet 中 的 部 分 层次 关系 , pathlen (nickel, coin) 二 1，pathlen 

(nickel, dime) 二 2,nickel 与 其 他 词汇 的 语义 路 径 长 度 标注 在 图 中 。 









standard 
Medium of exchange scale 
currency money 
Ny Richter scale 


counage 


1 a 
coin 
nickel dime 





Db 


图 5-9 基于 路 径 长 度 的 语义 相关 度 
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而 基于 路 径 长 度 的 语义 相关 度 则 定义 为 路 径 长 度 的 对 数值 : 
pathlen(c1,cz2) 


2D ‘(5-19} 


Simpam (C1»c2) 一 一 log 


式 中 ,D 表示 层次 树 的 最 大 深度 。 
(2) Resnik 方法 。Resnik 方法 由 Resnik 提出 ,是 一 种 基于 概念 结 点 信息 量 的 相关 度 计 
算 方法 ,该 方法 通过 估计 两 个 词汇 之 间 的 共同 信息 量 来 实现 ,对 两 个 概念 的 相关 度 按 下 面 的 
公式 计算 : 
Simpesnik (Cc1»c2) =— logP(LCS(c1 ,cz)) (5-20) 
式 中 ,LCS 是 Lowest Common Subsumer 的 缩写 ,是 两 个 概念 ct 和 cz 在 层次 树 上 最 近 的 共 
同上 位 词 ( 父 结 点 )。 
式 (5-20) 中 的 PCO) 的 计算 方法 如 下 : 
p33 count(w) 
D(C) = (5-21) 


式 中 ,words(c) 是 指 被 纳入 概念 c 的 词汇 所 构成 的 集合 , N 是 语料库 中 的 所 有 词汇 数 。 因 
此 ,有 P(root) 二 1, 即 所 有 的 词汇 都 被 纳入 root 所 指示 的 概念 ,这 里 root 是 指 分 层 关 系 树 
的 树 根 结 点 。 
(3) Lin 方法 。Lin 方法 从 信息 论 的 角度 来 考虑 词义 概念 的 相关 度 , 认 为 相关 度 取决 于 
不 同 词义 概念 所 包含 信息 的 共有 性 (Commonality) 和 辨别 性 (Difference)。 该 方法 将 相关 
度 定义 为 如 下 公式 。 
_ 2 XlogP(LCS(a ,cs)) 


SimLan(c1c2) = TogP(e) FlogPC6 (5-22) 


其 中 ,分 子 表 示 两 个 概念 的 共有 性 ,分 母 表示 两 个 概念 的 辨别 性 。 
(4) JCN 方法 。JCN 方法 由 Jiang 和 Conrath 提出 , 它 将 词义 概念 层次 结构 与 语 料 统计 
数据 相 结合 ,将 基于 最 短路 径 的 方法 和 基于 概念 结 点 信息 量 的 方法 融合 ,计算 公式 如 下 : 


人 1 
Sm 二 Fg Oe Fi 


除了 上 述 提 到 的 方法 外 ,还 有 许多 针对 WordNet 的 语义 相关 度 计算 方法 。 

(1) Hso 方 法 , 即 Hirst 与 St-Onge 所 提出 的 基于 词汇 链 的 相关 度 计算 方法 ,其 依据 是 
两 个 词义 概念 之 间 的 词汇 链 越 长 ,发 生 的 转向 次 数 越 多 , 则 相关 度 越 低 。 

(2) Lesk 方法 是 一 种 基于 释义 重 倒 的 相关 度 计算 方法 , 它 将 两 个 词义 概念 的 释义 的 重 
合 词 语 数 量 作 为 两 者 的 相关 度 。 

(3) Wup 方法 是 由 Wu 与 Palmer 提出 的 基于 路 径 结构 的 相关 度 度 量 方法 。 

(4) Vector_pairs 方法 是 由 Patwardhan 与 Pedersen 提出 的 基于 WordNet 层次 结构 信 
息 和 语料库 共 现 信息 的 相关 度 计算 方法 。 对 每 个 词义 概念 ,根据 语料库 统计 信息 ,得 到 其 释 
义 中 词语 的 共 现 词语 ,为 其 构建 释义 向 量 (Gloss Vectors); 根据 不 同 词义 的 释义 向 量 之 间 
的 余弦 夹 角 来 衡量 两 者 的 词义 相关 度 。 

上 述 的 语义 相关 度 是 针对 两 个 概念 ,这 是 由 于 WordNet 中 的 上 下 位 、 同 义 、 反 义 等 语义 
关系 是 表示 在 两 个 概念 之 间 。 但 由 于 WordNet 的 概念 实际 上 是 一 个 同义词 集合 (Synset)， 
因此 上 述 计 算 方法 也 适用 于 两 个 词汇 。 

在 具体 实现 上 .有 一 些 开源 系统 可 以 进行 调用 。JWS(Java WordNet Similarity) 是 由 





























122 互联 网 大 数据 处 理 技术 与 应 


University Of Sussex 的 David Hope 等 开发 的 基于 Java 与 WordNet 的 语义 相关 度 计 算 开 
源 项 目 。 其 中 实现 了 许多 经 典 的 语义 相关 度 算 法 ,是 一 款 值 得 研究 的 语义 相关 度 计算 开源 
工具 , 它 的 使 用 方法 如 下 。 

(1) 下 载 WordNet (Win、2. 1 版 ): http://wordnet. princeton. edu/wordnet/ 
download/。 

(2) 下 载 WordNet-InfoContent (2. 1 版 ): http://wn-similarity. sourceforge. net/ 或 
http://www. d. umn. edu/ 一 tpederse/Data/ 。 

(3) 下载 JWS ( 现 有 版 本 , Beta. 11. 01): http://www. cogs. susx. ac. uk/ 
users/ drh21/ 。 

(4) 安装 WordNet。 

(5) 解压 WordNet-InfoContent-2. 1, 并 将 文件 夹 复 制 至 WordNet 的 安装 目录 中 ,如 : 
D:/Program Files/WordNet/2.1, 

(6) 将 JWS 中 的 两 个 jar 包 (edu. mit. jwi_2. 1. 4. jar 和 edu. sussex. nlp.jws. beta. 11. jar) 复 
制 至 Java 的 lib 目录 下 ,并 设置 环境 变量 。 

在 程序 中 ,格式 如 下 : 





import edu. sussex. nlp. jws. *; 

String dir = "D:/Program Files (x86)/WordNet"; 

JWS ws = new JWS(dir，"2.1") 7 // 指 定 所 使 用 的 WordNet 版 本 
JiangAndConrath jcn = ws. getJiangAndConrath( ) 

Scoresl = jcn. jcn(wl, w2, "n"); 

Lin lin = ws. getLin(); 

Scores2 = lin. lin(wl, w2, "n"); 


5.3” 旬 子 级 别 的 语义 分 析 技 术 


相 比 于 词汇 级 别 的 语义 ,句子 级 别 的 语义 分 析 技 术 在 大 数据 分 析 挖 气 中 就 更 为 常见 。 
典型 的 应 用 场景 包括 在 新 闻 报道 的 文本 中 寻找 事件 的 组 成 要 素 及 其 关系 ,在 评论 文本 中 识 
别 评论 信息 。 例 如 ,“ 手 机 的 屏幕 很 大 ”这 句 话 中 “手机 ”和 “屏幕 ”大 ”和 “很 "都 是 一 种 修饰 
关系 “屏幕 ”和 “大 ” 则 是 一 种 陈述 关系 。 又 如 5. 1 节 所 述 ,句子 中 的 词汇 能 够 表达 更 丰富 的 
语义 ,包括 施 事 、 受 事 、 与 事 、 工 具 、 结 果 、 方 式 、 原 因 、 条 件 、 领 属 等 。 而 这 些 关系 正 是 在 大 数 
据 中 挖掘 更 深层 次 知识 的 必要 基础 。 

在 句子 级 别 上 的 语义 分 析 , 要 区 分 句法 结构 和 语义 结构 。 

句法 结构 关系 是 从 语法 的 角度 出 发 ,对 句子 中 的 词 与 词 之 间 的 关系 进行 概括 和 分 类 ,名 
法 结构 的 成 分 为 句法 成 分 .如 主语 谓语、 述 语 、 宾 语 等 ,成 分 之 间 的 结构 关系 则 是 这 些 成 分 
之 间 所 构成 的 关系 ,包括 主语 一 谓语 、 述 语 一 宾语 等 。 因 此 ,所 谓 句 法 结构 关系 就 是 通常 所 
说 的 诸如 主 谓 关 系 、 述 宾 关系 、 述 补 关系 、 定 中 关系 等 。 有 时 ,也 称 句 法 结构 关系 为 语法 意 
义 。 例 如 ,“ 小 明 大 声 呼喊 ”这 个 结构 ,“ 小 明 ” 和 “呼喊 ”之 间 是 一 种 主 谓 关 系 , 用 于 陈述 说 明 。 
又 如 ,“ 小 明 在 吃 苹果 ”中 “ 吃 ” 和 *“ 芋 果 ” 是 一 种 述 宾 关 系 ,反映 了 支配 与 被 支配 关系 。 而 “可 
以 吃 的 人 苹果” 中“ 吃 ” 和 “苹果 ”是 一 种 定 中 偏 正 关 系 , 用 于 表达 修饰 限定 关系 。 
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语义 结构 关系 是 从 语义 角度 出 发 .对 所 要 分 析 的 句子 进行 构成 成 分 和 结构 关系 的 判断 。 
不 同 于 句法 结构 分 析 ,在 语义 结构 中 ,构成 成 分 是 一 种 语义 成 分 ,包括 动作 行为 ,性质 状态 、 
施 事 、 受 事 、 工 具 、 处 所 等 。 结 构 关系 是 这 些 语义 成 分 之 间 的 关系 ,包括 动作 一 受 事 、 施 事 一 
动作 ,动作 一 处 所 动作 一 结果 等 关系 。 在 “小 明 大 声 呼喊 ”中 ,如 果 将 “小 明 ” 分 析 为 “呼喊 ” 
的 施 事 ,“ 小 明 在 吃 苹果 ”中 的 “苹果 ”和 “可 以 吃 的 苹果 ”中 的 “苹果 ”都 分 析 为 “ 吃 ” 的 受 事 , 这 
就 是 语义 结构 关系 分 析 。 

从 上 述 介绍 可 以 看 出 ,在 句法 结构 中 ,句法 关系 是 一 种 显 性 关系 ,只 要 对 句子 进行 结构 
上 的 分 析 就 可 以 得 到 , 较 容易 标注 出 来 ; 而 语义 关系 是 一 种 隐 性 关系 ,并 不 太 容易 看 出 来 ， 
需要 在 理解 句子 含义 的 基础 上 才能 标注 出 来 。 句 法 结构 关系 和 语义 结构 关系 之 间 不 是 一 一 
对 应 的 关系 , 表 5-4 所 示 的 是 若干 个 简单 的 语义 关系 的 示例 。 


表 5-4 语义 关系 的 例子 




















例 名 句法 关系 语义 关系 

写 文章 述 宾 动作 行为 一 结果 
写 毛 笔 述 宾 动作 行为 一 -工具 
吃 米饭 述 宾 动作 行为 一 受 事 
吃食 堂 述 宾 动作 行为 一 一 处 所 








总 之 ,一 个 名 词 在 进入 句子 以 后 是 充当 主语 、 宾 语 还 是 其 他 成 分 ,取决 于 这 个 名 词 在 句 
子 中 所 处 的 位 置 , 而 一 个 词 具有 什么 样 的 语义 则 取决 于 它 和 动词 的 关系 。 汉 语 中 的 实 词 在 
进入 句子 后 , 词 与 词 之 间 有 多 少 种 语义 关系 及 各 种 语义 关系 的 名 称 , 目 前 汉语 语法 学 界 还 没 
有 统一 的 说 法 , 少 的 十 几 种 ,多 的 达到 六 七 十 种 。 语 法 学 界 经 常 提 到 的 一 些 主 要 语义 关系 有 
施 事 、 受 事 , 与 事 、 工 具 、 结 果 、 方 位 时间、 目的 方式、 原因、 同事 、 材 料 、 数 量 、 基 准 、 范 围 . 条 
件 、 领 属 等 。 这 些 多 样 化 的 语义 关系 ,它们 之 间 的 边界 也 并 不 清晰 ,也 使 得 句子 级 别 的 语义 
分 析 变 得 更 加 复杂 。 

这 十 几 种 语义 关系 在 每 一 个 具体 的 句子 中 可 能 只 存在 几 种 ,如 何 把 每 个 具体 句子 中 的 
语义 关系 找 出 来 ?就 要 用 到 语义 的 框架 分 析 。 语 义 框架 分 析 就 是 用 形式 化 的 表述 方式 将 具 
体 句 子 中 的 动词 与 名 词 的 语义 结构 关系 表示 出 来 。 例 如 “老师 批评 了 学 生 。 "这 个 句子 中 ， 
“批评 ”是 句子 的 谓语 动词 .是 句子 的 核心 “老师 ”是 发 出 “批评 ”这 个 动作 行为 的 ,是 施 事 , 它 
们 的 语义 结构 关系 是 施 事 一 动作 ;“ 学 生 ” 是 “批评 ”这 个 动作 行为 的 对 象 , 是 受 事 , 它 们 的 语 
义 结构 关系 是 动作 一 受 事 。 因 此 这 个 句子 的 语义 框架 为 施 事 一 动作 一 受 事 。 

由 此 可 见 , 在 分 析 句 子 的 语义 框架 时 ,首先 要 找 出 这 个 句子 中 的 谓语 动词 ,其 次 要 找 出 
与 动词 发 生 联 系 的 各 个 名 词 及 其 与 动词 的 语义 关系 ,最 后 是 描写 出 这 个 句子 的 语义 结构 框 
架 , 对 于 有 语义 关系 标志 的 . 写 出 相应 的 标志 。 

在 计算 机 自动 处 理 方面 ,Stanford Parser 是 一 个 典型 的 依存 关系 分 析 工 具 。 依 存 语法 
通过 分 析 语 言 单位 内 成 分 之 间 的 依存 关系 得 到 其 句法 结构 , Stanford Parser 是 由 
StanforsNLP Group 开发 的 基于 Java 的 开源 NLP 工具 ,支持 中 文 英文、 法文 . 德 文 等 多 国 
语言 的 语法 分 析 , 当 前 最 新 的 版 本 为 3. 6. 0, 开 发 语言 上 支持 Java 等 ,下 载 地 址 为 http:// 
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nlp. stanford. edu/ software/lex-parser. shtml. 下 载 后 解压 。 以 下 介绍 利用 该 开源 工具 进行 
句子 依存 关系 的 分 析 方 法 。 

下 载 相 关 文 件 并 解压 执行 文件 ,然后 下 载 模型 文件 ,这些 模型 文件 是 经 过 特定 语言 训练 
过 的 模型 ,可 以 在 网 站 上 选择 合适 的 语言 。 例 如 ,对 于 中 文 来 说 ,最 新 的 模型 文件 是 
stanford-chinese-corenlp-2016-01-19-models. jar .解压 后 ,可 以 在 edu\stanford\nlp\models\ 
lexparser 的 目录 中 找到 若干 个 模型 文件 .有 chineseFactored. ser. gz、chinesePCFG. ser. gz、 
xinhuaFactored. ser. gz、xinhuaFactoredSegmenting. ser. gz、xinhuaPCFG. ser. gz。 其 中 ， 
factored 的 文件 包含 词汇 化 信息 ,PCFG 是 更 快 更 小 的 模板 ,xinhua 是 根据 (新 华 日 报 ) 训 练 
的 语 料 ,而 chinese 同时 包含 香港 和 台湾 的 语 料 , xinhuaFactoredSegmenting. ser. gz 可 以 对 
未 分 词 的 句子 进行 句法 解析 。 

Stanford Parser 的 运行 方式 有 两 种 ,一 种 命令 行 方式 , 另 一 种 是 图 形 界面 方式 。 

1. 命令 行 方式 

编写 一 个 文件 chinese-test. txt, 文 件 中 写 一 个 句子 (经 过 词汇 切 分 ), 如 “浦发 银行 要 
继续 涨停 ”。 

在 控制 台 上 执行 以 下 命令 : 





java — mx200m edu. stanford. nlp. parser. lexparser. LexicalizedParser - retainTMPSubcategories 
— outputFormat " typedDependenciesCollapsed " chineseFactored. ser. gz chinese— test. txt 


可 以 看 到 ,该 解析 器 输出 了 以 下 的 依存 关系 : 


nn( 银 行 -2, 浦发 -1) 
nsubj( 涨 停 - 5, 银行 -2) 
mmod( 涨 停 -5, 要 一 3) 
mmod( 涨 停 一 5, 继续 一 4) 
root(ROOT - 0， 涨 停 -5) 


输出 的 每 一 行 中 ,表示 两 个 词汇 之 间 的 关系 ,关系 名 称 是 第 一 个 字符 串 , 上 述 输出 中 ， 
nn 表示 名 词组 合 形式 (noun compound modifier) .nsubj 表示 名 词 主 语 (nominal subject)、 
mmod 表示 情态 动词 (modal verb) ,而 root 是 根 结 点 ,关系 的 开始 。 

画 成 依赖 关系 图 就 能 更 清楚 地 表达 出 这 种 依存 关系 ,句法 分 析 树 如 图 5-10 所 示 。 


root | [ 洒 安 ] | 银行 | | 要 | [ 纸 续 ] | 语 停 ] 









































nsubj 


图 5-10 依赖 关系 图 
例如 ,中 国 经 济 的 基本 面 决定 了 人 民 币 不 存在 长 期 贬值 的 基础 ?的 依存 关系 
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如 下 : 


择 具 有 分 词 功能 的 模型 文件 ,然后 Load File 或 者 直接 在 空白 区 域内 输入 语句 。 


nn( 经 济 -2, 中 国 -1) 
assmod( 基 本 面 - 4， 经 济 一 2) 
case( 经 济 -2, 的 -3) 
nsubj (决定 - 5， 基 本 面 - 4) 
root(ROOT- 0， 决定 -5) 
asp( 决 定 -5, 了 -6) 
nsubj( 存 在 -9， 人 民 币 一 7) 
neg( 存 在 -9, 不 -8) 
ccomp( 决 定 - 5， 存在 -9) 
advmod( 贬 值 一 11, 长 期 -10) 
relcl( 基 础 -13, 贬值 -11) 
mark( 贬 值 -11， 的 -12) 
dobj( 存 在 - 9， 基础 -13) 


除了 上 面 示例 中 输出 的 词汇 关系 外 ,在 Stanford Parser 的 解析 输出 中 还 有 以 下 的 
关系 ， 


subj: 主语 

obj: 宾语 

dobj : 直接 宾语 (direct object) 

pobj : 介词 的 宾语 (object of a preposition) 
attr: 属性 (attributive) 

cc: 并列 关 系 (coordination) 

csubj : 从 主 关 系 (clausal subject) 

poss: 所 有 形式 、 所 有 格 、 所 属 (possession modifier) 
ref : 指示 物 、 指 代 (referent) 

tcomp: 时 间 补 语 (temporal complement) 

lccomp: 位 置 补 语 (localizer complement) 

tmod: 时 间 修 饰 (temporal modifier) 

rcmod: 关系 从 名 修饰 (relative clause modifier) 
numod: 数量 修饰 (numeric modifier) 

amod: 形容 词 修饰 (adjetive modifier) 

advmod: 副词 修饰 (adverbial modifier) 

neg: 否定 词 (negation modifier) 


2. 图 形 界 面 方式 


直接 运行 lexparser-gui. bat 文件 ,选择 Load Parser 模型 文件 ,如 果 语 句 未 分 词 应 该 选 





输入 “今年 即将 步 人 职场 的 财经 毕业 生 们 期 望 月 薪 也 


了 >” 


得 到 解析 后 的 句法 分 析 树 如 图 5-11 所 示 。 可 以 看 出 ,在 这 个 句子 的 句法 关系 分 析 中 “提高 ” 
是 核心 词 。 


名 法 分 析 树 中 的 主要 标注 及 其 含义 列举 如 下 : 
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Ne 
人 
人 


1 可 NN ee 
也 


的 财经 毕业 生 们 期 望 月 薪 


图 5-11 解析 后 的 句法 分 析 树 





除了 上 述 两 种 使 用 方式 外 .也 可 以 在 程序 中 调用 解析 。 以 下 片段 就 是 完成 这 个 功能 的 
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大 体 过 程 ,主要 有 以 下 4 个 步骤 。 
(1) 指定 模型 文件 ,如 果 输 入 的 文本 还 没有 分 词 , 应 当选 择 支持 分 词 功能 的 模型 。 


String grammars = "edu/stanford/nlp/models/lexparser/chinesePCFG. ser. gz"; 


(2) 加 载 模型 文件 ,初始 化 用 于 句法 分 析 的 类 LexicalizedParser。 


LexicalizedParser lp = LexicalizedParser. loadModel (grammars); 


(3) 调用 parse() 方 法 对 输入 的 文本 s 进行 解析 。 


Tree t= lp. parse(s); 


(4) 后 续 处 理 , 根 据 需 要 生成 不 同 的 处 理 格 式 。 


//Language pack for Chinese treebank 

ChineseTreebankLanguagePack tlp = new ChineseTreebankLanguagePack(); 
//RA general factory for GrammaticalStructure objects 
GrammaticalStructureFactory gsf = tlp. grammaticalStructureFactory(); 
//Construct a new GrammaticalStructure from an existing parse tree 
ChineseGrammaticalStructure gs = new ChineseGrammaticalStructure(t); 
Collection < TypedDependency > tdl = gs. typedDependenciesCollapsed(); 


5.4 命名 实体 识别 技术 


从 句子 篇章 中 识别 命名 实体 ,将 会 使 词汇 的 具体 含义 更 加 明确 ,赋予 具体 的 语义 信息 。 
对 非 结 构 化 的 文本 信息 进行 结构 化 处 理 ,获得 结构 化 要 素 , 就 能 运用 成 熟 的 结构 化 数据 分 析 
方法 ,因此 这 种 思路 也 是 互联 网 大 数据 分 析 的 一 种 重要 基础 性 工作 。 除 了 词汇 的 切 分 外 ,为 
词汇 赋予 更 具体 的 语义 标签 ,就 更 加 有 实际 意义 。 而 命名 实体 的 识别 就 是 这 样 的 一 种 技术 ， 
本 节 介 绍 若干 种 典型 的 命名 实体 识别 方法 。 


5.4.1 命名 实体 识别 的 研究 内 容 


命名 实体 是 指 以 名 称 为 标识 的 实体 ,包括 人 名 、 地 名 、 国 家 和 机 构 的 名 称 等 ,更 广泛 的 命 
名 实体 也 可 以 包括 时 间 、 地 址 ,数字 等 。 命 名 实体 可 以 大 致 分 为 数字 类 时间 类 和 实体 类 (名 
称 ) ,具体 细 分 包括 人 名 、 地 名 、 机 构 名 、 时 间 、 日 期 .货币 和 百分比 。 

命名 实体 的 识别 即 为 在 整 段 的 文字 信息 中 识别 出 属于 上 述 范 围 内 的 命名 实体 ,将 其 提 
取出 来 ( 即 边界 识别 ) ,或 者 识别 该 实体 的 类 型 , 即 属于 上 述 实 体 的 哪 一 种 类 型 。 命 名 实体 的 
识别 是 文本 形式 分 析 和 语义 分 析 的 重要 基础 ,其 识别 结果 可 作为 基础 数据 应 用 至 自然 语言 
处 理 、 信 息 检索 .与 情 分 析 等 多 个 领域 。 

对 于 英文 或 拉丁 语系 的 文字 ,通常 可 以 通过 首 字母 大 写 的 方式 来 判断 命名 实体 的 位 置 
(边界 ) , 则 问题 的 主体 是 判断 命名 实体 的 类 别 。 而 对 于 中 文 及 日 文 等 象形 文字 ,由 于 没有 明 
确 的 单词 分 割 ,首先 需要 通过 分 词 确定 命名 实体 的 边界 ,然后 再 进行 进一步 的 处 理 。 
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命名 实体 的 识别 方法 大 体 可 分 为 两 类 ,一 类 是 基于 规则 的 方法 ,概括 了 某 类 命名 实体 在 
语言 文字 上 的 构成 规则 ,将 制定 的 规则 形式 化 成 模板 ,通过 字符 串 匹 配 的 方法 进行 命名 实体 
的 识别 。 另 一 类 是 基于 统计 的 方法 ,以 统计 信息 为 基础 计算 某 个 字符 串 是 某 种 命名 实体 的 
概率 ,根据 其 概率 值 来 具体 判断 是 否 接受 其 为 一 个 特定 类 型 的 命名 实体 。 

以 下 分 别 对 人 名 、 地 名 和 时 间 类 的 识别 方法 进行 介绍 。 


5.4.2 人 名 识别 方法 


由 于 人 名 信息 的 特殊 性 ,人 名 用 字 具 有 一 定 的 统计 规律 ,可 以 基于 此 首先 进行 预 处 理 ， 
根据 统计 信息 提取 出 人 名 在 姓氏 和 名 字 中 常用 字 并 整理 出 其 对 应 出 现 概率 。 这 些 信息 在 基 
于 统计 的 人 名 识别 中 有 较 好 的 区 分 作用 ,在 计算 一 个 字符 串 为 姓名 的 概率 时 ,人 名 与 其 他 字 
符 串 之 间 的 计算 结果 会 有 明显 的 差别 。 

基于 统计 的 人 名 识别 即 利 用 贝 叶 斯 定理 ,根据 已 知 的 先 验 知识 确定 文本 中 人 名 出 现 的 
概率 PCN) ,之 后 对 于 一 个 字符 串 miszss, 则 可 以 根据 贝 叶 斯 公式 计算 
P(siszss | N)P(N) 

Pls1s2ss) 

式 中 ,Plsiszss) 表 示 某 个 给 定 字 符 串 的 概率 (二 1),P(siszss|NN) 表 示 命 名 实体 N 中 包含 字 
符 串 * 中 字符 的 概率 ,这 个 概率 可 以 利用 统计 信息 的 整理 来 计算 ,在 用 字 独 立 的 条 件 下 ,可 
以 通过 下 式 计算 , 即 : 

Plsiszss | N) = Plsi | N)P(s; | N)P(ss | N) (5-25) 

之 后 可 以 设 定 一 个 国 值 e, 当 概率 PCN|siszss) 之 e 时 , 则 可 认定 字符 串 515253 是 一 个 人 
名 。 阅 值 。 的 设 定 可 以 根据 已 知人 名 信息 来 确定 。 

如 果 对 人 名 进行 进一步 的 划分 ,可 以 得 到 更 为 精确 的 结果 。 可 以 根据 人 名 的 结构 将 人 
名 划分 为 姓氏 、 名 字 前 半 、 名 字 后 半 这 3 个 部 分 , 则 一 个 人 名 至 少 有 其 中 的 两 个 部 分 ( 当 遇 到 
单字 名 时 ,可 以 直接 理解 为 姓氏 十 名 字 后 半 的 形式 )。 对 于 统计 结果 也 需要 再 次 细 化 ,分 别 
统计 出 语 料 中 每 个 字 在 姓氏 中 及 名 字 各 个 部 分 中 出 现 的 概率 。 此 时 判断 一 个 字符 串 s1s2ss 
为 人 名 的 方法 是 : 

Plsiszss | N) = Pl(si | surN)P(s, | midN)P(ss | endN) (5-26) 

两 个 字 的 人 名 的 计算 方法 : 

Pl(siss | N) = Pl(s1 | surN)P( | endN) (5-27) 

其 中 surN .midN .endN 分 别 表示 姓名 的 3 个 部 分 (姓氏 十 名 字 前 半 十 名 字 后 半 )。 

在 基于 规则 的 统计 方法 中 .可 以 通过 一 些 特殊 的 词汇 辅助 进行 人 名 的 识别 ,具体 如 下 。 

(1) 特定 称谓 : 常用 于 人 名 之 后 的 称呼 ,如 先生 小姐、 阁下 等 。 

(2) 特定 词汇 : 常用 于 人 名 之 前 的 名 词 或 形容 词 ,如 青年 、 演 员 、 运 动员 等 。 

(3) 身份 词 指示 词 : 常用 于 人 名 前 后 的 修饰 词 . 如 同学 老师、 记者 ,市 长 等 。 

(4) 特定 动词 : 常用 于 人 名 后 面 的 表示 人 物 行动 的 动词 .也 可 用 于 帮助 确定 人 名 识别 
的 边界 ,如 认为 .指示 、 建 议 , 谈 到 等 。 

下 面 给 出 一 些 例子 ,斜体 的 词汇 即 为 可 用 于 命名 实体 识别 的 辅助 词语 。 

国家 主席 江泽民 今天 下 午 在 中 南海 会 见 了 香港 特别 行政 区 行政 长 官 董建华 。 江 泽 民 主 
席 对 香港 一 年 来 社会 、 经 济 形势 的 良好 发 展 表示 高 兴 。 江 汉民 希望 香港 各 界 人 士 要 十 分 珍 








P(N | saszss) = (5-24) 
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惜 和 维护 香港 的 社会 稳定 ,继续 支持 董建华 先生 和 特区 政府 依法 施政 ,为 香港 的 长 期 稳定 繁 
荣 打 下 更 坚实 的 基础 。( 新 华 社 2000. 10. 27) 

7 月 18 日 ,BTV 体育 台 《 足 球 100 分 ) 节 目 中 ,前 国安 球员 邓 乐 军 、 北 京 体育 广播 王 异 、 
特约 评论 员 朱 煜 明 担任 嘉宾 ,和 主 埋 人 魏 凋 东 一 起 谈 到 本 轮 中 超 的 焦点 话题 。( 新 浪 体育 
2016.7.18) 


根据 上 面 这 些 总 结 出 的 特定 词汇 ,可 以 很 快 确定 人 名 的 位 置 或 缩小 人 名 查找 范围 ,从 而 
可 进行 人 名 信息 的 提取 。 提 取 时 可 以 根据 人 名 用 字 词 典 进行 简单 的 字符 串 匹 配 , 也 可 以 根 
据 概率 方法 提取 。 

此 外 ,利用 上 下 文 信息 可 以 提高 人 名 识别 的 准确 度 。 上 下 文 信息 即 考虑 全 部 文本 中 的 
文字 集合 的 统计 信息 ,如 果 某 些 具 有 人 名 统计 特征 的 字符 串 在 文本 中 反复 出 现 , 则 很 可 能 是 
人 名 。 上 下 文 信息 在 人 名 的 命名 实体 识别 环境 下 的 分 词 可 以 用 于 消除 歧义 ,正确 地 进行 人 
名 切 分 与 识别 。 


s.4.3 地 名 识别 方法 


地 名 的 识别 方法 与 人 名 的 识别 方法 类 似 , 同 样 可 以 利用 基于 规则 的 方法 和 基于 统计 的 
方法 来 解决 。 

对 于 基于 规则 的 方法 ,可 以 参考 人 名 识别 的 方法 ,利用 地 名 命名 的 特征 辅助 判断 ,包括 
地 名 常用 字 及 常用 规律 ,以 及 地 名 中 的 指示 词 ( 一 类 是 地 名 单位 ,如 省 市. 县, 乡 等 , 男 一 类 
为 表示 地 点 的 名 词 , 如 广场 大厦、 街道 等 ), 为 这 些 特征 字 建 立 字典 并 进行 频率 统计 。 由 此 
可 以 构建 以 “命名 十 指示 词 "为 基础 的 模板 (在 此 之 上 进行 扩展 ) 进 行 基于 规则 的 识别 ,或 者 
直接 通过 扫描 指示 词 进 行 地 名 的 提取 ,在 指示 词 前 再 根据 模板 或 统计 方法 判断 地 名 命名 实 
体 的 边界 。 

对 于 基于 统计 的 方法 ,可 以 根据 统计 信息 在 单独 的 判断 字符 串 属于 地 名 命名 实体 概率 
的 基础 上 按照 地 名 实体 的 构成 规则 进行 更 加 精确 的 概率 计算 , 即 


kl 
P(WIC) = TTPoos | C= NLE)PCw | C= LE) (5-28) 
i=]1 


式 中 ,LE 表示 指示 词 , 用 于 指示 地 名 的 边界 ; NLE 为 非 指示 词 。 

基于 规则 的 方法 可 以 与 基于 统计 的 方法 相 结合 进行 改进 。 首 先 细 化 地 名 的 表示 规则 ， 
将 地 名 命名 实体 的 组 成 分 成 更 加 细 分 的 部 分 ,单独 统计 实体 首尾 用 字 进 行 明 确 的 命名 实体 
边界 的 划分 ,再 把 命名 实体 的 中 间 部 分 进行 多 段 划分 ,对 这 些 部 分 之 间 的 上 下 文 关 系 进行 进 
一 步 的 规则 规约 ,制定 更 为 详细 的 地 名 命名 实体 组 成 规则 ,用 以 规约 各 个 地 名 部 分 的 限制 及 
相 邻 组 成 之 间 的 联系 。 之 后 对 于 输入 的 字符 串 , 先 根 据 基于 统计 信息 建立 的 词典 分 割 出 命 
名 实体 的 各 个 部 分 ,再 对 切 分 出 来 的 各 个 部 分 通过 统计 方法 计算 出 现 概率 ,通过 各 个 部 分 联 
合 概率 与 辣 值 的 比较 来 确定 是 否 将 细 分 的 地 名 部 分 合并 为 一 个 更 大 规模 的 完整 地 名 命名 
实体 。 

基于 统计 的 方法 中 也 可 以 利用 隐 Markov 模型 (HMM) 来 进行 识别 。 在 HMM 模型 中 
以 是 否 为 命名 实体 为 标记 ,或 者 标记 为 是 哪 一 种 命名 实体 (作为 隐藏 状态 ) ,以 词性 标注 作为 
观测 值 ,或 者 直接 输入 词语 序列 。HMM 模型 中 的 状态 转移 概率 、 输 出 概率 和 初始 概率 可 以 
通过 对 训练 文本 集 的 学 习 得 到 。 之 后 利用 Viterbi 算法 求解 最 优 序列 。HMM 模型 标记 命 














130 互联 网 大 数据 处 理 技术 与 应 用 


名 实体 的 过 程 中 同样 可 以 结合 基于 规则 的 判定 进行 算法 优化 与 修正 。 
5.4.4 时 间 识 别 方法 


由 于 时 间 的 表达 模式 相对 有 限 , 因 此 对 于 时 间 短 语 的 识别 多 采用 基于 规则 的 识别 方法 。 
在 基于 规则 的 时 间 识 别 方法 中 ,需要 对 时 间 的 表达 形式 进行 归 类 ,整理 成 对 应 的 时 间 短 语 模 
板 ,然后 可 以 通过 字符 串 匹配 的 方法 进行 识别 。 

时 间 短 语 大 致 分 为 以 下 几 种 类 型 ,可 以 据 此 建立 初步 的 模板 和 字典 。 

(1) 表示 时 间 点 : + 时 (点 )y 分 z 秒 ,如 10 点 .2 时 28 分 22 秒 等 。 

(2) 表示 日 期 : z+ 年 y 月 x 日 ,如 2016 年 7 月 15 日。 

(3) 时 间 词 : 包括 时 段 、 节 日 .表示 时 间 点 的 词语 等 ,如 早上 、 元 旦 、 昨 天、 将 来 等 。 

(4) 表示 一 段 时 间 : 可 以 看 作 是 前 面 (1) (2) 的 衍生 模式 ,如 15 分 钟 ,3 天 等 。 

上 面 的 (1)、(2)、(4) 三 类 需要 同时 考虑 到 数字 和 汉字 文本 表达 的 两 种 情况 。 

基于 上 面 的 时 间 短 语 划分 ,可 以 引申 出 复杂 时 间 短 语 的 识别 模式 。 复 杂 时 间 短 语 包括 
复合 时 间 短 语 和 时 间 介 词 短 语 两 种 。 

复合 时 间 短 语 是 指 多 个 基本 时 间 短 语 的 组 合 ,包括 日 期 十 时 间 (2016 年 7 月 15 日 14 
时 44 分 05 秒 ) 日 期 十 时 间 词 (7 月 15 日 下 午 )、 时 间 词 十 具体 时 间 ( 今 天 下 午 、 今 天 下 午 3 
点 )、 时 间 词 十 段 时 间 ( 昨 天 一 天 、 过 去 24 小 时 ) 。 

时 间 介 词 短 语 是 指 利用 一 些 介词 表示 时 间 段 之 间 的 关系 或 者 时 间 段 与 上 下 文 之 间 的 关 
系 , 如 截至 今天 、 自 从 2013 年 以 来 .直到 8 月 13 日 等 ,其 中 截至 、 自 从、 直到 这 些 词 即 为 表示 
时 间 关 系 的 介词 。 时 间 介 词 短语 一 般 有 介词 十 时 间 短 语 ( 上 面 4 种 基本 短语 及 其 组 合 的 复 
合 时 间 短 语 ) ,以 及 介词 十 时 间 短 语 十 助词 (从 …… 到 …… ,到 …… 为 止 ,自从 …… 以 来 ) 两 种 
形式 。 

基于 上 述 的 时 间 短语 分 类 可 以 确定 时 间 短 语 模 板 的 集合 ,之 后 便 可 以 根据 时 间 短 语 模 
板 集合 进行 时 间 短 语 的 匹配 工作 。 

时 间 短 语 的 匹配 可 以 利用 正则 表达 式 进行 ,通过 利用 给 定 的 模板 集合 进行 匹配 ,识别 出 
符合 模板 集合 给 定形 式 的 时 间 短语 。 这 种 识别 方法 易于 编程 ,实现 也 比较 简单 ,其 准确 度 依 
赖 于 模板 集合 的 容量 和 模板 设 定 的 精确 度 。 正 则 表达 式 下 的 时 间 模 板 可 以 写 为 : 








[0-9]{1,2} 点 [0-9]{1,2} 分 [0-9]{1,2} 秒 


能 够 识别 xx 点 内 分 ** 秒 ” 的 时 间 格 式 , 但 会 匹配 到 25 点 之 类 的 错误 格式 ,因此 精确 
表示 可 以 表示 成 下 面 的 形式 ,最 多 能 表示 24 点 59 分 59 秒 。 





((0?[0-9])|([1][0-9])|([2][0- 4])) 点 ([0-5]?[0-9]) 分 ([0-5]?[0-9]) 秘 


同样 ,对 于 日 期 的 一 般 形式 为 [0-9]{1,4} 年 [0-9]{1,2} 月 [0-9](1,2} 日 ,这 个 简单 的 形 
式 能 识别 日 期 格式 ,但 是 一 些 非 日 期 的 写法 也 会 被 提取 出 来 。 这 个 问题 可 以 留 到 后 续 环 节 
处 理 , 也 可 以 写 更 加 精确 的 正则 表达 式 。 但 精确 表示 的 正则 表达 式 就 要 复杂 得 多 ,因为 要 考 
虑 大 月 .小 月 ,平年 、 闽 年 等 多 种 情况 ,可 以 写 为 : 
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^((((1[6-9]|[2-9]\d)\df2}) - (0?[13578]|1[02])— (0?[1— 9]|[12]\d|3[01]))|(((1i[6— 9]| 
[2-9]\d)\d{2}) - (0?[13456789]|1[012]) - (0?[1—9]|[12]\d|30))|(((1i[6 -9]|[2- 91\d)\ 
d{2}) -0?2— (0?[1-9]|i\dl2[0—-8]))|(((1[6 -9]|[2- 9]\d)(0o[48]|[2468][048]|[13579] 
[26])|((16|[2468][048]|[3579][26])00)) -0?2—29-—))$ 


也 可 以 在 设 定 模板 的 基础 上 再 设置 一 个 时 间 词 词典 ,里 面包 含 一 定数 量 ( 或 尽 可 能 多 ) 
的 时 间 词 短语 ,以 及 用 于 时 间 短 语 上 下 文 的 前 级 介词 和 后 级 介词 。 在 实际 进行 时 间 短语 识 
别 时 ,可 以 根据 时 间 词 词典 提取 出 文本 中 的 时 间 词 ,简单 的 时 间 、 日 期 和 时 间 段 短语 可 以 直 
接 通 过 上 文 的 时 间 模 板 进行 识别 ,这 样 可 以 提取 出 给 定 文本 中 的 时 间 短 语 。 对 于 相 邻 的 时 
间 短 语 ,检测 其 组 合 及 所 在 位 置 的 上 下 文 文字 是 否 符合 上 下 文 相 关 的 模板 (利用 前 缀 词 和 后 
级 词 词典 的 复合 时 间 短 语 的 模板 ) ,如果 符合 则 作为 一 个 复合 时 间 短 语 进行 处 理 。 


5.4.5 基于 机 器 学 习 的 命名 实体 识别 


基于 机 器 学 习 方 法 将 命名 实体 的 识别 看 作 是 一 个 序列 标注 问题 , 即 给 定 词汇 序列 ,求解 
其 对 应 的 最 佳 命名 实体 序列 。 在 这 样 的 思想 下 ,各 种 命名 实体 的 识别 方法 就 可 以 统一 起 来 ， 
只 要 把 各 种 命名 实体 看 作 是 一 种 标签 符号 即 可 。 条 件 随机 场 .HMM 模型 等 都 是 用 于 序列 
标注 的 经 典 模型 ,模型 的 训练 需要 充足 的 命名 实体 标注 语 料 。 
1. 条 件 随机 场 简介 
条 件 随机 场 (Conditional Random Field,CRF) ,也 称 为 Markov 随机 域 或 条 件 随 机 域 。 
用 于 对 于 已 知 的 观测 序列 进行 自动 标注 , 即 对 于 一 组 已 知 分 布 的 随机 变量 序列 ,根据 这 些 随 
机 变量 的 分 布 ,为 这 些 随机 变量 标注 出 男 一 组 随机 值 ,产生 一 个 新 的 用 于 标注 的 随机 变量 序 
列 。CRF 也 可 以 用 于 命名 实体 类 型 的 标注 ,其 与 上 文 提 到 的 HMM 模型 的 区 别 在 于 序列 中 
的 随机 变量 可 以 有 依赖 关系 , 即 条 件 概 率 的 来 源 。 
条 件 随机 场 的 数学 模型 可 以 用 无 向 图 表示 ,图 中 每 个 结 点 表示 一 个 随机 变量 ,每 条 边 表 
示 该 边 连 接 的 两 个 结 点 所 表示 的 随机 变量 之 间 存 在 依赖 关系 ,这 两 个 结 点 表示 的 随机 变量 
即 称 为 条 件 随机 场 。 对 于 两 组 随机 变量 X 和 YY 如 果 在 给 定 X 的 条 件 下 ,对 应 的 Y 的 集合 
中 的 随机 变量 满足 Markov 特性 : 
Pl(Y, | X,Y, ,wv) = P(Y, | X,Yu,w ~ vo) (5-29) 
其 中 ,w~v 表示 mw 和 w 之 间 存 在 边 , 式 (5-29) 对 Vw,v€EY 和 恒 成 立时 ,车 随机 变量 集合 Y 
与 X 相关 (在 X 的 条 件 下 ) . 则 称 (X.Y) 为 条 件 随机 场 。 
常用 的 CRF 结构 为 一 阶 链 式 结构 , 即 线性 链 式 结构 ,每 个 Y 中 的 随机 变量 只 与 它 前 面 
的 一 个 随机 变量 产生 依赖 。CRF 的 链 式 结构 如 图 5-12 所 示 , 图 中 设 集合 X 产生 了 所 有 
的 Y。 
在 CRF 的 链 式 结构 中 ,根据 随机 场 理论 有 : 2 网 
PCY | X,A) cc EPS Gm dt Bers oe) (5-30) 
其 中 ,Cyi-1,yioz, 站 表示 特征 转移 函数 ,描述 在 位 置 i 的 情 
况 下 yi-1 和 yi 的 转移 关系 ; ss(yi;,X, 引 表示 位 置 i 的 状态 特 
征 函数 , 即 描述 y; 的 特征 。 这 两 个 特征 函数 可 以 统一 为 特征 
函数 广 (y_i ,wz,D, 则 上 式 可 以 表示 为 ， 图 5-12 ”CRF 的 链 式 结构 


EC To 
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Pl(Y| XD) = i g(x) C5=31) 
EE: 


Dal ) 


i 





其 中 


g(x) = ee Pim 区 (5-32) 


在 标注 序列 Y 中 ,在 序列 的 开头 和 结尾 分 别 增加 初始 状态 和 结束 状态 两 个 结 点 ,就 可 
以 把 链 式 结构 CRF 中 的 标注 序列 的 条 件 概率 表示 为 矩阵 的 形式 : 
Mi(z) = [Mi(y’',y | 7x)] = g(x) (5-33) 
从 而 可 以 得 到 标注 序列 的 条 件 概率 : 


ntl 
TI MiCyi 5 让 总 
PCY|1X)= 一 mr (5-34) 


(I Mz) he 
ntl 
其 中 ,( ITM) 表示 和 矩阵 乘积 结果 的 初始 状态 和 结束 状态 对 应 的 项 。 


2. 条 件 随 机 场 在 命名 实体 识别 中 的 应 用 

CRF 应 用 于 命名 实体 识别 时 ,将 原文 中 的 词语 序列 作为 观测 值 ,词语 的 命名 实体 类 型 
作为 隐藏 变量 求解 ,为 文本 序列 中 的 词语 标注 命名 实体 类 型 。 

在 实际 应 用 中 ,将 原文 中 的 词语 直接 分 割 成 单字 或 词汇 进行 命名 实体 识别 效果 相对 更 
优 , 对 应 的 标注 命名 实体 类 型 也 需要 在 原 有 的 命名 实体 类 型 (如 人 和 名、 地 名 等 ) 再 分 出 人 名 、 
地 名 的 首 字 、 中 间 部 分 .结尾 字 等 类 型 的 标签 。 

利用 CRF 进行 命名 实体 的 标注 需要 经 过 3 个 步骤 , 即 根据 文本 特征 进行 特征 函数 选 
取 \ 根 据 文本 特征 通过 机 器 学 习 进 行 参数 估计 根据 学 习 的 参数 估计 结果 进行 模型 推断 ,得 
到 最 终 的 标注 序列 。 下 面 介绍 这 些 步骤 。 

1) 特征 函数 选择 

特征 函数 用 于 表示 状态 特征 函数 和 转移 特征 函数 的 统一 化 。 在 这 里 ,特征 函数 取 一 个 
二 值 函数 b(zx, 站 ,表示 在 i 位置 时 对 于 条 件 x 下 的 观测 值 , 取 值 为 0 或 1。 真 实 特征 函数 
pz 需要 反映 训练 数据 的 分 布 情况 及 模型 分 布 的 情况 ,其 值 根据 文本 情况 确定 , 当 出 现 某 
些 特定 观测 值 时 取 值 为 1, 否则 取 值 为 0, 即 : 


| (观测 值 为 特定 情况 ) 
(zi) = (5-35) 
0 (else) 


通过 上 面 的 定义 式 就 可 以 得 到 所 有 时 刻 观察 值 的 特征 ,进而 可 以 计算 特征 函数 。 特 征 
函数 方 C(y-i,yyzsi 的 取 值 在 满足 一 定 转移 条 件 时 取 函 数 2%(z.i) 的 值 , 即 表示 为 ， 


0(X,i) (yi 与 w% 取 值 为 一 定 条 件 ) 
JCyriyyiszyi) -| (5-36) 
0 (else) 


在 实际 应 用 中 .i 的 观测 值 不 一 定 只 是 i 位 置 上 的 观测 值 .可 以 选择 在 i 附近 一 定 范围 
内 的 观测 值 综合 生成 特征 函数 的 值 。 特 征 函 数 通 常 可 以 选择 的 特征 包括 单字 特征 (单字 观 
测 值 ) 和 上 下 文 特征 (一 定 范围 内 的 序列 的 观测 值 ) .此 外 当 输 入 序列 包括 词语 的 词性 标注 信 
息 时 ,也 可 以 生成 词性 特征 (基于 词性 条 件 下 得 到 的 观测 值 ) ,特征 函数 的 观测 值 的 取 值 需要 
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根据 训练 文本 集 的 情况 来 决定 。 

2) 参数 估计 

在 CRF 应 用 中 ,参数 估计 用 于 计算 特征 函数 的 权重 。 参 数 估计 通常 使 用 极 大 似 然 估计 
的 方法 。 对 于 训练 文本 集 有 样本 集合 D={1(CX,.Y)},. 且 有 根据 训练 文本 集 的 经 验 概 率 
PCX,Y) , 则 对 于 条 件 模型 PCY|1X.)A) .可 以 得 到 其 极 大 似 然 函 数 : 


工 (MA) = ZlogPly | ,p(xz,y) (对 数 化 ) 
在 CRF 模型 中 , 极 大 似 然 函数 的 具体 表现 形式 为 ， 


L(V)= Fpczsy) ( Dfi yesyin ri) — Dplr)log Dg lx) 
Ey i=l 小 r 于 


= Dp) DHF tris — Dp lx)log daz) (5-37) 
参数 估计 的 目的 就 是 为 求 极 大 似 然 函数 的 最 大 值 ,因此 对 式 (5-37) 求 关于 、 的 导数 ， 
即 为 : 


aLO) 


3 Dp zs) DfiCyensyir) — Dp ply | xa) > 方 (yrlyyiyz) 
CA yy i=1 xy i=1 


= Eyxaw [fiCx, 9)]— DEsCya® a) Lfi (xr® ,y)] (5-38) 
k 


其 中 ,EL/(z)] 表 示 /(z) 在 分 布 p 下 的 期 望 ,p(z,y) 表 示 训 练 数据 的 经 验 分 布 [(x,y) 在 
联合 概率 空间 中 出 现 的 频率 ],x” 表示 序列 x 的 第 k 项 。 求 式 (5-38) 在 值 为 0 时 入 的 取 值 
即 可 得 到 极 大 似 然 函数 的 最 优 解 。 

极 大 似 然 函 数 中 参数 的 估计 值 有 两 种 求解 方法 ,一 种 是 迭代 梯度 算法 , 男 一 种 为 近 
似 二 阶 方法 (L-BFGS 算法 ) 。 和 迭代 梯度 算法 的 过 程 是 在 初始 的 取 值 的 基础 上 ,生成 一 
组 新 的 参数 4 十 A 使 结果 更 优 ,最 后 在 似 然 函 数 趋 于 收敛 的 时 候 结 束 算法 得 到 最 大 似 





然 值 。 
这 里 有 : 
LQ+A)—LO)= Dplrsy)logply | zat+A)— Dplr,y)logply | zh) 
a < graCz) 
Dp DY Dt) |- Pplog ee 
并 定义 辅助 函数 
AAsAY = Dl bp Derifi Gyo) | 十 1 
Ty i=l j 
一 px) logply | | 之 人 ee eT ”| 
其 中 


T(z,y) = Dm 
i=l 了 了 
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迁 代 梯度 算法 的 过 程 , 即 首 先 为 * 赋 一 组 初 值 , 然 后 计算 使 得 一 > 一 


用 4 十 G4 更 新 4, 直 到 似 然 函数 收敛 。 

和 迭代 梯度 算法 的 具体 实现 分 为 GIS 算法 和 IIS 算 法 两 种 。 

GIS 算 法 中 假设 有 T(z,y) 二 max{T(z,y)) 二 C, 且 条 件 随机 场 选择 的 特征 数 总 和 总 保 
持 为 C。 在 GIS 算法 中 按照 下 面 的 方式 进行 迭代 更 新 : 





9A(X,A) 


EE 二 0 的 624; 值 ,并 


ai en 
Ez» [fi] = Dopp Dh mn (5-40) 
Epaw [fi] = Dp (zx) >) 力 (y | zsN) Df yi yi eT (5-41) 
而 在 TIS 算法 中 ,定义 下 面 的 近似 关系 ， 和 
TCz,y) ~ T(r) = maxT (x,y) (5-42) 
对 应 的 更 新 方法 是 


Epsw [fi ]= ownexp1 C6;)")} 


kom = Zp 2p0y | 工 EA Yin)Om, T(z)) (5-43) 


近似 二 阶 方法 的 L-BFGS 算法 在 似 然 丽 数 的 微分 方程 基础 上 增加 了 一 个 惩罚 函数 来 抵 
消 直 接 使 用 对 数 似 然 函 数 进 行 参数 估计 带 来 的 过 度 学 习 的 情况 , 即 有 : 


9LCOA) 
ou 





= Bp, DD DD) — Dp pe | 2) DL Gey) 一 关 


(5-44) 

式 中 的 参数 ao 用 于 训练 文本 集 规模 较 小 时 的 平滑 作用 。L-BFGS 算法 同样 需要 根据 上 
式 中 求 出 修正 之 后 的 4 值 并 更 新 ,反复 迭代 至 似 然 函 数 收 敛 。 

3) 模型 推断 

模型 推断 的 内 容 即 为 利用 上 面 选择 的 特征 函数 及 参数 估计 方法 ,计算 最 有 可 能 的 输出 
序列 作为 输出 结果 。 这 个 过 程 中 涉及 边际 概率 分 布 的 求解 ,在 上 文中 已 经 给 出 了 求解 的 公 
式 ; 对 于 模型 期 望 和 经 验 分 布 期 望 的 求解 ,以 及 求 出 极 大 似 然 函 数 中 的 参数 4 的 值 后 进而 
进行 最 终 的 标记 序列 的 求解 ,可 以 通过 Viterbi 算法 来 进行 计算 。 

3. CRF 应 用 实例 

CRF++ 是 著名 的 条 件 随机 场 开源 工具 .也 是 目前 综合 性 能 最 佳 的 CRF 工具 ,可 以 利用 
该 开源 工具 进行 命名 实体 (地 名 、 人 名 、 机 构 名 等 ) 的 识别 。 

根据 前 述 CRF 原理 的 介绍 ,识别 过 程 主要 分 为 CRF++ 训 练 .CRF++ 测 试 ( 推 断 ) 两 
部 分 。 

CRF++ 的 训练 包括 训练 语 料 的 生成 .模板 制定 及 参数 学 习 的 训练 方法 ,如 图 5-13 所 示 。 
其 中 训练 语 料 可 以 利用 现 有 的 ,或 者 自行 构造 。 这 里 的 训练 语 料 采用 词汇 为 单位 进行 人 工 
标注 , 语 料 生成 后 是 一 个 类 似 以 下 格式 的 文本 文件 。 
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天 津 市 ns LOC 
烟花 n0 
爆竹 n0 
安全 an0 
管理 vn0 


办 法 n0 





训练 语 料 的 生成 | | 模 析 的 制定 | 





























训练 


图 5-13 CRF++ 的 训练 








其 中 ,第 一 列 为 词汇 ,第 二 列 为 词性 ,第 三 列 为 标注 结果 ,LOC、PER .ORG 分 别 标注 了 地 名 、 
人 名 和 机 构 名 ,其 余 词语 的 标注 为 "90”。 整 个 训练 语 料 文件 由 若干 个 句子 组 成 , 即 训练 样 
本 ,实际 应 用 中 这 些 样本 数量 应 当 尽 可 能 大 。 为 了 处 理 上 的 方便 ,不 同 句子 之 间 通 过 换行 符 
分 隔 。 

当然 ,训练 语 料 也 可 以 是 以 单字 为 单位 进行 人 工 标注 .以 下 是 针对 CRF++ 训 练 的 单字 
训练 语 料 样 例 , 其 中 需要 对 命名 实体 的 标签 进行 细 分 ,体现 出 命名 实体 的 开始 ,如 B-LOC 表 
示 地 名 的 开始 。 


从 
JI 


3 


i 属 一 号 茹 下 阶 忧 冰 启 准 
oommO 和 PPT 


接 下 来 是 模板 template 的 制定 .模板 定义 了 从 训练 语 料 中 提取 特征 的 方法 。 具 有 以 下 
形式 : 


U00: %x[—2,0] 
0U01:$%x[ 一 1,0] 
U02: % x[0,0] 
U03: % x[1,0] 
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每 个 模板 都 是 由 %x[Lrow .col 来 指定 输入 数据 中 的 一 个 token。row 指定 到 当前 token 
的 行 偏 移 ,col 指定 列 位 置 。 

在 CRF++ 中 支持 两 种 类 型 的 特征 模板 : 第 一 种 以 字母 U 开头 ,属于 Unigram 类 型 的 
模板 。 当 模板 前 加 上 U 之 后 ,CRF++ 会 自动 生成 一 个 特征 函数 集合 ; 第 二 种 特征 模板 以 B 
开头 , 即 Bigram 类 型 的 模板 。 

最 后 ,执行 “crf_learn template train. data model” 命 令 即 可 生成 相应 的 模型 文件 ,将 该 
模型 文件 保存 起 来 ,以 供 后 续 的 测试 (推断 ) 任 务 使 用 。 

CRF++ 的 测试 (推断 ) 是 利用 训练 好 的 模型 对 输入 的 文本 进 | 
行 命名 实体 的 提取 ,其 处 理 流程 如 图 5-14 所 示 。 粕 入 关机 

将 输入 的 文本 保存 于 测试 文件 (test. txt) ,测试 文件 的 格式 与 
训练 文件 的 格式 类 似 , 只 是 没有 第 三 列 的 标注 。 由 于 前 面 训练 语 
料 采用 的 是 词汇 形式 ,因此 图 5-14 中 的 输入 文本 在 进行 模型 测试 (四 
前 需要 先 经 过 中 文 分 词 处 理 , 并 且 应 当 使 用 与 训练 语 料 生成 时 一 
样 的 分 词 方法 。 图 514 CRF++ 的 测试 

执行 “crf_test -m model test. txt” 命 邻 ,获取 CMD 数据 流 , 进 
行 筛选 即 可 获得 命名 实体 。 图 5-15 显示 了 一 个 测试 结果 示例 ,将 含有 命名 实体 的 词汇 挑选 
出 来 。 

















模型 测试 





命名 实体 


文本 段 
对 于 来 自 杨浦 区 解放 路 的 学 生 ， 医 院 的 外 科 主 任 杨 宏 、 主 刀 的 王 医生 都 表示 压力 很 大 。 





| 畅 浦 区 LOC 解放 路 LOC 杨 大 PER 王 医 生 PER 








图 5-15 CRF++ 的 测试 结果 示例 


5.5 大 数据 语义 分 析 技 术 的 发 展 


大 数据 语义 分 析 所 覆盖 的 技术 很 广泛 ,特别 是 针对 互联 网 大 数据 ,其 中 的 数据 类 型 多 
样 ,新 型 应 用 也 不 断 出 现 , 所 产生 的 语义 分 析 需 求 有 的 可 以 用 本 章 提 到 的 方法 来 解决 ,而 有 


的 需要 发 展 新 的 语义 分 析 技 术 。 
互联 网 大 数据 语义 分 析 技 术 研 究 还 存在 很 多 挑战 性 问题 ,以 下 列举 了 一 些 目 前 关注 越 
来 越 多 的 问题 。 





1. 基础 知识 库 构 建 技术 
本 章 介绍 了 WordNet、HowNet 两 种 经 典 的 语义 知识 库 , 它 们 是 进行 词汇 和 句子 语义 
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分 析 的 关键 基础 ,但 是 针对 互联 网 具体 特点 和 语 境 的 语义 知识 库 目 前 并 不 完善 ,专业 领域 的 
语义 知识 库 就 更 加 匮乏 。 为 了 能 进行 完整 的 语义 分 析 计 算 , 基 础 知识 库 构建 技术 成 为 研究 
发 展 的 重要 方向 。 

2. 粗 粒 度 语义 分 析 技 术 

从 文本 分 析 的 粒度 看 ,除了 词汇 句子 外 ,还 有 篇 章 级 、 事 件 级 、 主 题 级 等 更 粗 粒度 的 描 
述 单元 ,而 针对 这 些 粒度 的 分 析 中 ,也 存在 大 量 的 语义 问题 。 对 于 事件 或 主题 来 说 ,所 涉及 
的 可 能 并 非 是 一 篇 文档 。 事 件 所 涉及 的 语义 包括 事件 时 间 、 地 点 、 人 物 及 关键 过 程 等 。 虽 然 
已 经 知道 如 何 从 文本 中 提取 时 间 、 人 物 等 实体 信息 ,但 是 在 文档 中 ,通常 会 遇 到 多 个 时 间 、 多 
个 地 点 ,而 它们 描述 了 事件 发 生 的 不 同 阶 段 。 因 此 ,需要 在 细 粒 度 语义 分 析 的 基础 上 , 进 一 
步 研究 这 些 实 体 和 事件 的 关系 。 

3. 概念 建 模 技术 

在 许多 研究 和 应 用 需求 中 ,通常 并 不 停留 在 把 实体 提取 出 来 ,而 是 有 更 多 的 要 求 。 概 念 
建 模 就 是 其 中 一 个 典型 的 需求 ,从 文本 信息 中 识别 各 种 概念 ,并 提取 描述 该 概念 的 属性 、 属 
性 值 ,更 进一步 对 文本 中 的 不 同 概念 之 间 的 关系 进行 判断 。 例 如 ,涉及 复旦 大 学 的 一 篇 介绍 
文本 中 ,可 能 会 包含 复旦 大 学 、 校 长 等 概念 ,复旦 大 学 拥有 地 点 、 学 生 人 数 等 属性 ,而 校长 有 
其 名 字 、 出 生年 月 等 属性 ,同时 这 两 个 概念 之 间 又 有 紧密 的 联系 。 显 然 ,这 种 语义 关系 的 识 
别 是 概念 建 模 的 核心 ,目前 这 方面 的 相关 技术 还 很 不 成 熟 。 

4. 混合 类 型 数据 的 语义 分 析 技 术 

大 数据 的 主要 特征 之 一 就 是 数据 源 多 ,对 不 同 数据 源 的 数据 进行 融合 计算 是 大 数据 计 
算 分 析 的 主要 方向 ,在 一 些 面向 单一 类 型 数据 的 应 用 中 ,其 相应 的 数据 融合 技术 就 相对 比较 
简单 。 例 如 ,对 于 关系 型 数据 ,可 以 通过 关键 字段 .元 组 配对 等 方式 实现 。 但 是 ,针对 不 同类 
型 数据 ,如 文本 类 型 和 位 置 型 的 混合 数据 环境 下 ,如 果 想 知道 预测 移动 用 户 在 下 一 个 位 置 的 
信息 行为 ,那么 结合 位 置 趋势 和 文本 的 语义 分 析 技 术 就 成 为 核心 。 而 此 类 问题 的 技术 手段 ， 
目前 并 没有 引起 重视 ,预计 将 在 应 用 需求 的 推动 下 得 到 快速 发 展 。 

总 之 ,互联 网 大 数据 语义 分 析 技 术 是 大 数据 处 理 中 一 项 很 重要 的 核心 技术 ,也 是 难点 技 
术 , 今 后 将 在 应 用 推动 和 人 工 智能 技术 的 支持 下 ,得 到 越 来 越 多 的 研究 者 关注 。 


. 什么 是 语义 ”语言 学 中 的 语义 有 哪些 .计算 机 语言 学 中 处 理 的 语义 有 哪些 ? 
. 简 述 WordNet 和 HowNet 的 知识 表示 方法 。 

.分析 说 明 Resnik 方法 和 基于 路 径 长 度 的 词汇 语义 相关 度 计 算 方法 的 优 缺 点 。 
.学习 使 用 Stanford parser 分 析 工 具 。 

. 学 习 使 用 CRF++ 工 具 , 并 对 一 段 句子 进行 命名 实体 识别 。 


an 上 oo 
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在 互联 网 大 数据 的 各 种 应 用 中 ,通常 都 会 涉及 针对 分 类 、 聚 类 、 回 归 分 析 等 技术 。 虽 然 
分 类 和 聚 类 在 传统 的 结构 化 数据 中 已 经 有 较 长 的 应 用 历史 ,也 有 和 较 多 的 文献 和 著作 中 都 有 
详细 的 叙述 ,而 对 文本 内 容 的 分 析 是 随 着 互联 网 应 用 而 发 展 起 来 的 ,也 具有 与 结构 化 数据 不 
同 的 特征 。 本 章 除了 介绍 经 典 的 数据 挖掘 算法 外 ,还 着 重 针对 文本 内 容 的 一 些 相 关 处 理 方 
法 和 模型 进行 了 叙述 。 


6.1 大 数据 分 析 技 术 概 述 


随 着 互联 网 的 发 展 ,结构 化 和 非 结 构 化 信息 内 容 迅 速 增加 ,成 为 了 一 种 重要 的 信息 来 
源 。 进 行 数据 分 析 挖掘 时 ,数据 的 分 类 、 聚 类 等 基本 算法 就 显得 尤为 重要 。 数 据 挖掘 的 任务 
分 为 描述 任务 和 预测 任务 ,描述 任务 包括 相关 分 析 、 聚 类 ,序列 分 析 等 ,预测 任务 包括 回归 和 
分 类 。 描 述 任 务 的 目标 是 导出 概括 数据 中 的 潜在 联系 的 模式 (如 相关 、 趋 势 聚集、 轨迹 和 异 
常 等 ) ,本 质 上 ,描述 任务 通常 是 探查 性 的 ,需要 后 处 理 技 术 验证 和 解释 结果 。 预 测 任务 的 目 
标 是 根据 其 他 属性 的 值 .预测 特定 属性 的 值 。 由 于 算法 较 多 ,本 章 主 要 介绍 分 类 、 聚 类 和 回 
归 分 析 这 3 种 基本 算法 和 相关 模型 。 

分 类 任务 就 是 确定 对 象 属于 哪个 预定 义 的 类 ,具体 来 说 ,就 是 将 数据 对 象 自动 归 和 人 一 个 
或 多 个 事先 定义 好 的 类 中 。 数 据 分 类 是 一 个 有 监督 的 学 习 过 程 ,根据 一 个 已 经 被 标注 的 训 
练 数据 集合 ,找到 对 象 特征 和 类 别 之 间 的 关系 模型 ,然后 利用 这 种 学 习 得 到 的 关系 模型 对 新 
的 对 象 进行 类 别 判 断 。 图 6-1 所 示 的 是 一 个 基本 的 分 类 过 程 表示 ,其 中 常用 的 分 类 模型 包 
括 决 策 树 、 朴 素 贝 叶 斯 .支持 向 量 机 (SVM) 、 神 经 网 络 、K- 近 邻 算法 (kNN) 和 模糊 分 类 法 等 。 


输出 
对 生生 一 [2 于》 站 属 类 别 
图 6-1 基本 的 分 类 过 程 


聚 类 任务 是 根据 数据 的 不 同 特征 .将 其 划分 为 不 同 的 数据 类 。 其 目的 为 使 得 属于 同一 
类 别 的 个 体 之 间 的 距离 尽 可 能 小 ,而 不 同类 别 之 间 的 距离 尽 可 能 大 。 数 据 聚 类 的 主要 依据 
为 : 同类 对 象 的 相似 度 较 大 ,而 不 同类 对 象 的 相似 度 较 小 。 不 同 于 分 类 过 程 , 聚 类 是 一 个 无 
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监督 的 学 习 过 程 , 它 在 给 定 的 某 种 相似 性 度量 方法 下 ,把 对 象 集合 进行 分 组 ,使 彼此 相近 的 
对 象 分 到 同一 个 组 内 ,而 不 需要 事先 对 这 些 组 进行 定义 。 常 用 的 聚 类 方法 包括 K-means, 层 
次 聚 类 法 .基于 密度 的 方法 、 基 于 模型 的 方法 。 

回归 分 析 是 研究 现象 之 间 是 否 存在 某 种 依存 关系 ,并 对 具体 有 依存 关系 的 现象 探讨 其 
相关 方向 及 相关 程度 ,是 研究 变量 之 间 不 确定 性 关系 的 一 种 统计 方法 。 在 大 数据 分 析 中 , 通 
常 要 寻找 不 同 变量 或 对 象 之 间 的 关联 性 ,就 需要 通过 相关 分 析 技 术 。 

分 类 和 聚 类 两 个 过 程 是 有 一 定 的 区 别 与 联系 的 。 

分 类 是 一 种 有 监督 的 学 习 过 程 . 有 监督 学 习 是 指 对 有 类 别 标记 的 训练 样本 进行 学 习 , 以 
尽 可 能 对 训练 集 样 本 外 的 数据 进行 准确 标记 。 而 聚 类 是 一 种 无 监督 的 学 习 过 程 , 无 监督 学 
习 是 对 没有 类 别 标记 的 训练 样本 进行 学 习 , 以 发 现 训练 样本 集中 的 结构 知识 。 

分 类 的 类 别 是 已 知 的 ,其 任务 是 将 数据 对 象 自动 归 入 一 个 或 多 个 事先 定义 好 的 类 中 , 同 
时 ,数据 分 类 通常 需要 预先 进行 特征 提取 ,利用 提取 出 来 的 特征 进行 分 类 。 聚 类 是 把 没有 类 
别 标签 的 数据 ,在 不 知道 分 为 几 类 的 情况 下 ,根据 数据 内 在 的 差异 性 大 小 ,合理 地 划分 成 几 
类 ,并 确定 每 个 数据 对 象 的 所 属 类 别 。 

从 应 用 场景 看 ,分 类 作为 组 织 和 管理 数据 的 有 效 手 段 ,可 以 应 用 于 用 户 的 个 性 化 分 析 、 
文本 内 容 过 滤 , 个 性 化 新 闻 推 荐 .垃圾 邮件 过 滤 、 文 本 情感 分 类 、 自 动 租 入 广告 等 应 用 中 。 聚 
类 则 是 根据 数据 对 象 的 不 同 特征 ,将 其 划分 为 不 同 的 类 。 文 本 聚 类 是 聚 类 中 的 一 种 典型 特 
例 ,可 以 作为 多 文档 自动 文摘 等 自然 语言 处 理应 用 的 预 处 理 步骤; 可 以 应 用 于 信息 过 滤 、 主 
题 推 荐 ,信息 检索 等 服务 中 。 

当然 ,除了 数据 挖掘 算法 原理 本 身 外 ,在 大 数据 分 析 应 用 中 ,还 需要 面 对 的 一 个 问题 是 
海量 数据 。 数 据 量 大 所 带 来 的 问题 是 在 单 台 计 算 机 上 的 处 理 速度 无 法 满足 业务 的 需求 , 针 
对 这 个 问题 ,也 产生 了 很 多 的 分 布 式 算法 。 分 布 式 算法 广泛 采用 数据 分 片 处 理 的 思路 ,但 早 
期 算法 由 于 分 布 式 技术 平台 在 可 靠 性 ,编程 接口 等 方面 的 局 限 ,使 得 这 种 算法 的 实现 并 不 太 
容易 。 近 年 来 , 随 着 Hadoop、Spark 等 大 数据 技术 平台 的 逐步 成 熟 , 提 供 了 简单 易 入 门 的 编 
程 接口 ,集群 计算 和 分 布 式 协调 控制 技术 ,使 得 分 布 式 算法 设计 和 部 署 成 为 解决 大 数据 分 析 
挖掘 问题 的 主要 途径 。 


6.2 特征 选择 与 特征 提取 


在 大 数据 分 类 问题 中 ,数据 对 象 的 属性 数量 通常 都 很 大 ,特别 是 文本 数据 。 特 征 空间 是 
决定 如 何 对 一 个 文本 或 数据 对 象 进行 表示 的 关键 因素 之 一 。 这 种 影响 体现 在 以 下 两 个 
方面 。 

(1) 特征 空间 的 大 小 。 特 征 空 间 越 大 .表示 一 个 对 象 所 需要 的 维 数 就 越 多 ,在 对 数据 对 
象 进行 运算 时 所 需要 的 各 种 计算 量 就 相应 地 增加 。 特 别 是 在 文本 中 ,其 维 数 是 不 同 词汇 的 
个 数 ,对 于 长 文本 来 说 ,这 种 特征 空间 都 很 大 。 

(2) 特征 空间 中 各 个 维度 所 存在 的 相关 性 。 大 数据 中 数据 对 象 的 各 个 属性 之 间 通 常会 
存在 一 定 的 相关 性 ,如 描述 个 人 偏好 的 性 别 与 兴趣 主题 ,女生 更 喜欢 化 妆 品 之 类 的 主题 信 
息 ,类 似 地 ,在 文本 信息 中 各 个 词汇 也 会 存在 很 大 的 相关 性 。 这 种 相关 性 的 存在 使 得 后 续 的 
数学 模型 表达 变 得 更 加 复杂 ,也 容易 导致 分 析 中 的 不 准确 。 
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特征 空间 的 研究 和 构建 经 历 了 较 长 的 发 展 历史 ,并 且 还 在 不 断 发 展 中。 在 这 个 过 程 中 ， 
出 现 了 多 种 经 典 的 特征 选择 方法 ,也 出 现 了 特征 提取 这 种 从 另 一 个 角度 构建 特征 空间 的 思 
路 。 同 时 , 随 着 近年 来 深度 学 习 研 究 的 深入 ,深度 学 习 神 经 网 络 也 被 用 于 作为 数据 对 象 , 特 
别 是 文本 信息 的 特征 选择 。 特 征 选择 与 特征 提取 是 在 处 理 特 征 时 的 两 种 不 同 思路 。 

(1) 直接 选择 法 。 当 实际 用 于 分 类 的 特征 数据 4 给 定 后 ,直接 从 已 获得 的 个 原始 特 
征 中 选 出 d 个 特征 zl ,zz,…',zd 使 判 据 J 满足 : 

J (ziyzzyyzd) 一 max{(J(Czayzz…y za))} (6-1) 

式 中 ,zxa ,za，… ,zu 为 n 个 原始 特征 中 的 任意 4 个 特征 , 即 直 接 寻 找 维 特征 空间 中 的 d 
维 子 空间 。 

(2) 变换 法 。 在 使 判 据 J 取得 最 大 的 目标 下 .对 ) 原始 特征 进行 变换 降 维 , 即 对 原 )” 维 
特征 空间 进行 坐标 变换 ,再 取 子 空间 。 


6.2.1 特征 选择 


在 大 数据 应 用 系统 中 ,数据 样本 所 包含 的 属性 特征 数量 一 般 会 很 大 ,特别 是 文本 这 种 类 
型 的 数据 。 由 于 构成 文本 的 词汇 数量 很 大 ,中文 文本 经 过 分 词 . 停 用 词 的 处 理 之 后 ,直接 选 
取 所 得 到 的 词 作为 文本 的 特征 项 是 不 可 取 的 。 因 此 需要 进行 的 处 理 是 样本 的 特征 选择 , 即 
在 不 削弱 样本 主要 特征 或 文本 内 容 表示 准确 性 的 前 提 下 ,从 大 量 的 属性 或 词 条 中 选取 那些 
最 能 区 别 不 同样 本 的 属性 作为 特征 项 ,从 而 降低 向 量 空间 的 维 数 、 简 化 计算 、 提 高 分 类 准确 
性 。 即 在 获得 实际 若干 具 体 特征 后 ,再 由 这 些 原始 特征 产生 对 分 类 最 有 效 的 、 数 目 最 少 的 特 
征 。 所 以 ,特征 选择 的 目的 是 对 样本 进行 降 维 。 

特征 选择 指 从 特征 集 了 二 {4 ,ts，… ,is} 中 选择 一 个 真子 集 工 二 (4,42,…,4) ,并 且 满 足 
ss, 其 中 ;为 原始 特征 集 的 大 小 ,s 为 特征 选择 后 特征 集 的 大 小 。 特 征 选 择 的 规则 是 经 过 
选择 后 能 有 效 降低 特征 的 维度 .提高 分 类 的 效率 和 准确 率 。 这 种 选择 方法 没有 改变 原始 特 
征 空 间 的 性 质 ,只 是 从 原始 特征 空间 中 选择 了 一 部 分 重要 的 特征 ,组 成 一 个 原始 特征 空间 真 
子 集 的 新 的 低 维 度 的 特征 空间 。 

目前 ,特征 选择 的 主要 方法 有 信息 增益 、 卡 方 统计 量 、 互 信息 及 专门 针对 文本 内 容 的 
文档 频率 等 方法 。 这 些 特征 选择 方法 可 分 为 有 监督 和 无 监督 两 类 ,其 中 文档 频率 、 互 信 
息 为 无 监督 方法 , 卡 方 统计 量 、 信 息 增益 为 有 监督 方法 。 这 些 方法 制定 了 一 种 能 够 进行 
特征 选择 的 规则 ,能 够 反映 各 类 在 特征 空间 中 的 分 布 情况 ,能 够 刻画 各 类 特征 分 量 在 分 
类 中 的 贡献 。 

以 下 介绍 两 种 常见 的 特征 选择 方法 , 即 信息 增益 , 卡 方 统计 量 。 

1. 信息 增益 

在 信息 增益 中 ,特征 重要 性 的 衡量 标准 是 特征 能 够 为 分 类 系统 带 来 多 少 信息 量 , 带 来 的 
信息 量 越 多 ,该 特征 越 重 要 。 信 息 增益 中 ,信息 量 用 信息 炉 来 描述 ,假设 一 个 随机 变量 及 其 
取 值 空间 为 变量 X= {x ,x2，… ,x,) ,其 对 应 的 概率 为 P 二 {Pi.po，… ,ps), 则 变量 XX 的 信 
息 粮 为 ， 





NC) 三- pe (6-2) 
所 以 ,一 个 变量 可 能 的 变化 越 多 ,其 携带 的 信息 量 就 越 大 。 也 就 是 说 ,概率 分 布 越 均匀 ， 
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其 所 携带 的 信息 量 越 大 。 在 如 图 6-2 所 示 的 分 布 示意 图 中 ,随机 变量 A 的 信息 炉 比 B 
要 小 。 

信息 增益 中 增益 的 含义 是 考虑 特征 1, 即 1 作为 样本 Po 
维度 时 分 类 系统 的 信息 量 与 分 类 系统 的 信息 量 之 差 。 

分 类 系统 的 信息 量 是 将 分 类 系统 的 类 别 作 为 随机 变 
量 , 这 种 随机 变量 所 具有 的 信息 箭 。 而 上 作为 样本 维度 时 
分 类 系统 的 信息 量 是 一 种 条 件 炉 ,在 文本 分 类 中 ,其 计算 
应 当 考 虑 两 种 情况 , 即 样本 中 包含 : 和 样本 中 不 包含 1。 图 6-2 ”概率 分 布 示意 图 
因此 ,该 条 件 炉 可 按 式 (6-3) 计 算 : 

Hy(C|)= PWHCID)+PDAHCID (6-3) 

式 中 ,C 是 指 分 类 系统 的 类 别 变 量 ; 有 (C14) 、H(CI7) 分 别 代 表 样 本 中 包含 :和 样本 中 不 包 
含 : 这 两 种 情况 时 的 信息 炉 , 因 此 : 





A 





H(C|t) = 一 >)P(CC | 7) log:P(CC | 7) (6-4) 
i=1 
H(C|7) = 一 >)P(C | 7) logeP(C: | 7) (6-5) 
i=1 
因此 ,特征 项 4 的 信息 增益 是 : 


1G() =H(C) — H,(C|1) = 一 >)P(CC) logsP(Ci) 十 
i=l 


P(D) DPC; | ) log:P(CC; | D) + PT) >)P(C; | 7) logsPCC; | (6-6) 
i=l i=1 


根据 该 计算 公式 ,可 以 看 出 计算 信息 增益 时 ,需要 知道 样本 的 特征 (是 否 包含 0) 以 及 该 
样本 对 应 的 类 别 C, 而 类 别 C 是 需要 事先 知道 的 量 ,因此 是 一 种 有 监督 的 特征 选择 方法 。 在 
实际 计算 中 ,需要 从 给 定 的 训练 语 料 来 计算 公式 中 的 参数 。 以 一 个 文本 分 类 系统 为 例 ， 
式 (6-6) 中 的 各 个 因子 的 含义 及 计算 方法 说 明 如 下 。 

P(C;) 表 示 类 别 C; 的 概率 , 即 训练 语 料 中 类 别 是 C; 的 文本 数 除 以 总 文本 数 。 

PQ) 为 特征 1 出 现 的 概率 , 即 包 含 1 的 文本 除 以 总 文本 数 。 

Zp( 刀 为 特征 1 不 出 现 的 概率 , 即 不 包含 1 的 文本 数 除 以 总 文本 数 。 

P(Ci|4) 表 示 包 含 4 的 文本 属于 类 别 C; 的 概率 , 即 包含 1 并 属于 类 别 C; 的 文本 数 除 以 
包含 : 的 文本 数 。 

P(CC:|7) 表 示 不 包含 :的 文本 属于 类 别 C; 的 概率 , 即 不 包含 1 并 属于 类 别 C; 的 文本 数 
除 以 包含 : 的 文本 数 。 

在 计算 出 每 个 特征 (对 于 文本 来 说 .就 是 词汇 ) 的 信息 增益 之 后 ,对 这 些 特征 按照 信息 增 
益 值 从 大 到 小 排序 ,选择 前 & 个 词汇 作为 最 终 特征 选择 的 结果 。& 的 值 取 多 少 , 在 信息 增益 
计算 方法 中 并 没有 给 出 ,需要 在 具体 的 应 用 中 .根据 实际 效果 进行 调整 。 

2. 卡 方 统计 量 

卡 方 检验 是 数理 统计 中 的 一 种 常用 的 检验 两 个 变量 独立 性 的 方法 ,其 基本 思想 是 通过 
观察 实际 值 与 理论 值 的 偏差 来 确定 理论 的 正确 与 否 。 

卡 方 检验 的 步骤 如 下 。 
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(1) 假设 两 个 变量 是 独立 的 。 

(2) 观察 实际 值 与 理论 值 的 偏差 程度 

@ 如 果 偏 差 足 够 小 , 则 认为 误差 是 自然 的 样本 误差 ,是 测量 不 够 精确 或 偶然 产生 的 ,两 
个 变量 是 独立 的 。 

@ 如 果 偏 差 大 到 一 定 程度 , 则 误差 不 太 可 能 是 偶然 产生 或 测量 不 精确 所 致 ,就 可 以 认 
为 两 个 变量 是 相关 的 。 

同样 ,以 文本 分 类 中 的 特征 选择 为 例 ,一 个 词 w 是 一 个 随机 变量 ,一 个 类 别 C 也 是 一 个 
随机 变量 。 假 设 两 者 独立 . 则 可 以 认为 词 w 对 类 别 C 完全 没有 表征 作用 , 即 无 法 根据 w 出 
现 与 否 来 判断 文本 是 否 属于 类 别 C ,也 就 是 词 ww 对 类 别 C 没有 区 分 作用 。 用 区 表 示 除 ww 以 
外 的 其 他 特征 项 ,C 表示 除 C 以 外 的 其 他 类 别 , 则 统计 特征 项 w 和 类 别 C 的 数量 关系 为 
(ayC) wy,C) za,C) (za,C) ,用 A、B、E、D 表示 这 4 种 情况 的 文本 频次 。 

Cw,C): 整个 文本 集中 ,包含 w 词汇 的 文本 属于 类 别 C 的 文本 数量 。 

(w,C) : 整个 文本 集中 ,包含 也 词汇 的 文本 不 属于 类 别 C 的 文本 数量 。 

(za,C) : 整个 文本 集中 ,不 包含 w 词汇 的 文本 属于 类 别 C 的 文本 数量 。 

(za,C) : 整个 文本 集中 ,不 包含 w 词汇 的 文本 不 属于 类 别 C 的 文本 数量 。 

那么 ,整个 文本 集 的 文本 总 数 是 N==A 十 B 十 E 十 D。 

卡 方 统计 量 公式 为 : 

N (AD — BE)’ 


ee 
zw'C = ATEBHFD AFBETFD) Bk 


从 式 (6-7) 可 以 看 出 ,特征 项 的 卡 方 统计 量 是 与 某 个 类 别 有 关 的 ,而 从 式 (6-6) 看 特征 
项 的 信息 增益 值 并 不 依赖 于 某 个 特定 的 类 别 , 这 是 两 者 的 区 别 之 一 。 因 此 , 卡 方 统计 量 可 以 
选择 出 数据 集中 的 各 个 类 别 中 的 最 佳 特征 项 ,而 信息 增益 更 趋向 于 一 种 全 局 的 特征 选择 , 针 
对 整个 数据 集 。 

在 实际 应 用 中 是 进行 局 部 特征 选择 还 是 全 局 特征 选择 要 区 别 看 待 ,因为 针对 分 类 问题 ， 
在 特征 选择 之 后 要 进行 样本 的 统一 表示 ,因此 需要 有 一 个 统一 的 特征 集 , 这 在 多 分 类 应 用 中 
更 是 如 此 。 而 在 单 分 类 系统 中 ,倾向 于 将 类 别 自 身 表 达 出 来 即 可 ,因此 可 以 考虑 卡 方 统计 
量 。 当 然 也 有 的 研究 在 卡 方 统计 量 的 基础 上 再 进行 全 局 排序 ,获得 全 局 重要 性 ,由 此 也 可 以 
将 卡 方 统计 量 的 选择 方法 用 于 全 局 的 选择 。 
计算 出 卡 方 统计 量 后 ,就 可 以 根据 大 小 排序 ,选择 前 & 个 词汇 作为 特征 项 。 由 于 是 基于 
排序 结果 ,因此 卡 方 统计 量 公式 中 可 以 把 共同 N 的 项 去 掉 , 因 为 N 对 每 个 特征 项 都 相同 ， 
因此 式 (6-7) 则 可 简化 为 : 


x:(w,C) 




















(AD— BE)’ 

(A+E)(B+D)(A+B)(E+D) 

CHI 方法 只 考虑 单词 和 类 别 之 间 的 关系 ,而 忽略 了 单词 与 单词 之 间 的 联系 。 但 是 不 管 
是 信息 增益 还 是 卡 方 统计 量 , 它 们 在 计算 过 程 中 都 没有 考虑 特征 在 样本 中 出 现 的 次 数 ,而 只 
是 考虑 出 现 或 不 出 现 ,因此 在 文本 分 类 中 容易 产生 “低频 词 缺陷 ”. 放 大 了 低频 词 的 作用 ,从 
而 影响 分 类 准确 精度 。 

在 特征 选择 研究 方面 ,有 研究 人 员 针 对 文本 分 类 问题 ,分 析 和 比较 了 1IG( 信 息 增益 )、 
DF (文档 频率 ) .MI( 互 信息 ) 和 CHI( 卡 方 统计 量 ) 等 方法 后 ,得 出 IG 和 CHI 方法 分 类 效果 








(6-8) 
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相对 较 好 的 结论 。 
6.2.2 特征 提取 


特征 提取 也 称 为 特征 重 参数 化 。 特 别 是 文本 数据 中 ,由 于 自然 语言 中 存在 大 量 的 多 义 
词 .同义词 现象 ,特征 集 无 法 组 成 一 个 最 优 的 特征 空间 对 文本 内 容 进 行 描述 。 特 征 提取 将 原 
始 特征 空间 进行 变换 ,从 而 生成 一 个 维 数 更 少 ,各 维 之 间 更 独立 的 特征 空间 。 

特征 提取 的 基本 方法 为 变换 法 : 在 使 判 据 取得 最 大 的 目标 下 ,对 原始 特征 进行 变换 
降 维 , 即 对 原 n 维特 征 空 间 进 行 坐标 变换 ,再 取 子 空间 。 

本 节 介 绍 主 成 分 分 析 和 奇异 值 分 解 两 种 特征 提取 方法 。 

主 成 分 分 析 (PCA) 方 法 也 是 一 种 统计 方法 , 它 通过 正 交 变换 将 一 组 可 能 存在 相关 性 的 
变量 转换 为 一 组 线性 不 相关 的 变量 。 

PCA 将 原来 的 n 个 特征 用 数目 更 少 的 mr 个 特征 取代 ,一 般 wn, 新 特征 是 旧 特 征 的 线 
性 组 合 , 这 些 线性 组 合 最 大 化 样本 方差 ,尽量 使 新 的 m 个 特征 互 不 相关 。 这 里 最 大 化 方差 
是 这 样 的 考虑 ,由 于 方差 的 大 小 描述 的 是 一 个 变量 的 信息 量 , 一 般 来 说 ,方差 大 的 方向 是 信 
号 的 方向 ,方差 小 的 方向 代表 该 方向 存在 噪声 ,因此 ,在 PCA 变换 的 特征 提取 中 ,就 是 方差 
大 的 优先 ,当然 还 要 考虑 正 交 的 要 求 。 

PCA 的 原理 和 过 程 介绍 如 下 。 

在 数学 中 ,大 家 知道 样本 X 和 样本 Y 的 协 方差 可 以 通过 下 面 的 式 子 来 计算 : 

DXi— XY 
Cov(X,Y) = = (6-9) 

协 方差 为 正 , 说 明 X 和 Y 为 正 相关 关系 ; 协 方差 为 负 则 说 明 XX 和 YY 为 负 相 关 关 系 ; 协 
方差 为 0 说 明 X 和 YY 相互 独立 。 当 样本 为 n 维 (n 三 2) 时 ,其 协 方差 实际 上 是 一 个 协 方差 
和 矩阵 。 

PCA 的 具体 过 程 包含 以 下 6 个 步骤 。 

(1) 构建 样本 -特征 矩阵 4 三 {ei) .假设 矩阵 大 小 为 mxn。 表 示 有 m 个 样本 ,n 个 特征 ， 
对 于 文本 分 类 而 言 ,m 是 文本 个 数 ,n 是 词汇 个 数 .a; 是 第 i 个 特征 的 所 有 特征 值 构成 的 向 
量 , 在 文本 分 类 中 即 是 第 i 个 词汇 在 每 个 文本 中 的 权重 ,如 出 现 的 次 数 等 。 

(2) 对 于 和 矩阵 A, 分 别 计算 每 一 列 的 平均 值 , 即 


ar 
Pe 


m 


Qs 


它 表示 某 个 特征 i 在 整个 样本 集中 的 平均 值 。 

(3) 构造 新 的 矩阵 A', 其 中 的 每 个 列 是 a; 中 的 每 个 特征 值 都 减 去 对 应 的 平均 值 a ;。 

(4) 计算 特征 的 协 方差 矩阵 Cov 王 {cov(Caiyai)} ,i 二 1…n,j 三 1…n, 和 矩阵 大 小 为 nx n， 
矩阵 元 素 cov(ai.aj) 表 示 特 征 向 量 ai .ai 的 协 方差 , 当 ;一 ) 时 实际 上 就 是 方差 , 非 对 角 线 上 
的 元 素 是 协 方差 。 协 方差 绝对 值 越 大 .两 者 对 彼此 的 影响 越 大 ,反之 越 小 。 

(5) 针对 协 方差 矩阵 Cov, 计 算 包 含 特征 值 的 E 和 包含 特征 向 量 的 E; ,其 中 El 是 一 个 
nx1 的 矩阵 ,Es 是 一 个 nxn 的 矩阵 .E, 中 的 每 个 特征 向 量 是 归 一 化 的 单位 向 量 。 


(6-10) 
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(6) 将 特征 值 按 大 到 小 排序 ,选择 对 应 的 & 个 特征 向 量 作为 变换 后 的 特征 空间 维度 。 

特征 提取 步骤 至 此 结束 .但 实际 上 ,由 于 是 一 种 特征 提取 .样本 集中 的 每 个 样本 需要 按 
照 一 定 方法 进行 变换 ,而 无 法 像 特征 选择 那样 ,简单 地 选择 若干 个 特征 值 出 来 。 而 对 于 
PCA 来 说 ,在 求 得 特征 向 量 后 ,这 个 变换 过 程 ,也 就 比较 简单 了 。 可 以 在 第 (6) 步 的 基础 上 ， 
如 下 处 理 。 

(1) 从 E: 中 获得 对 应 的 个 特征 向 量 分 别 作 为 列 向 量 组 成 特征 向 量 和 矩阵。 

(2) 将 样本 点 映射 到 所 提取 的 特征 向 量 上 。 假 设 减 去 均值 后 的 样本 矩阵 为 4 Gm xz) ， 
协 方差 矩阵 是 Cov(n x* 2) ,选取 的 & 个 特征 向 量 组 成 的 矩阵 为 ET (nx*k&)。 则 映射 后 , 即 变 





换 后 的 样本 数据 4 为 : 
A mxk)=A' (mxn)* Elnx*k) (6-11) 
就 得 到 变换 后 的 所 有 样本 。 
从 上 述 的 PCA 实施 过 程 来 看 ,关键 在 于 步骤 (5)。 这 里 实际 上 是 进行 了 和 矩阵 的 特征 值 
分 解 。 


假设 AX=XX, 则 称 4 为 4 的 特征 值 ,X 为 对 应 的 特征 向 量 , 一 个 矩阵 的 一 组 特征 向 量 
是 一 组 正 交 向 量 。 正 是 由 于 具有 正 交 特性 , 才 被 选择 为 新 的 空间 的 维度 。4 的 特征 值 * 是 
包含 在 一 个 对 角 和 矩阵 中 ,具有 如 下 形式 : 
人 1 








An 
其 中 ,从 左上 角 到 右 下 角 , 特 征 值 由 大 到 小 排列 。 由 于 和 矩阵 相 乘 是 一 种 变换 ,因此 AX 实际 
上 是 利用 A 对 X 进行 了 变换 。 变 换 就 是 类 似 的 维度 旋转 、 拉 伸 、 压 缩 等。 因此 ,特征 值 大 小 
也 就 决定 了 它 所 对 应 的 特征 向 量 所 定义 的 变换 程度 大 小 。 之 所 以 选择 特征 大 的 个 作为 样 
本 变换 的 依据 ,就 是 基于 这 个 实际 计算 结果 。 

特征 值 分 解 要 求 输入 的 矩阵 必须 是 方 阵 ,因此 在 PCA 中 需要 先 求 得 协 方差 矩阵 。 那 么 
是 否 可 以 直接 在 原始 的 样本 -特征 矩阵 4 上 进行 特征 提取 呢 ? 

为 达到 这 个 目的 ,可 以 通过 奇异 值 分 解 (SVD) 来 实现 。 由 于 SVD 既是 一 种 降 维 方法 ， 
也 是 文本 挖掘 中 潜在 语义 分 析 LSA/LSI 的 关键 基础 ,因此 这 里 要 对 SVD 进行 一 些 介绍 。 

文本 分 类 中 可 以 运用 SVD 进行 降 维 ,下 面 就 以 这 个 应 用 为 背景 介绍 SVD。 当 然 ,只 要 
能 够 将 样本 和 特征 表示 在 一 个 矩阵 中 的 应 用 场景 都 可 以 使 用 SVD, 并 不 局 限于 文本 分 类 。 
奇异 值 分 解 的 基本 步骤 如 下 。 

(1) 构造 样本 -特征 矩阵 。 

在 文本 分 析 领 域 中 , 即 是 词 频 矩 阵 。 首 先 用 向 量 空间 模型 将 文本 表示 成 一 个 向 量 , 而 将 
整个 文本 集 表示 成 一 个 词语 和 文本 矩阵 4 矩阵 元 素 wz 表示 词 项 ww; 在 文档 di 中 的 权 
值 ,其 中 以 为 词语 数 ,n 为 文档 数 。 由 于 单个 文本 中 词 的 个 数 远 远 少 于 文本 集中 出 现 的 所 有 
词 数量 ,所 以 A 为 一 个 稀 玻 矩阵 。 

(2) 对 4 进行 奇异 值 分 解 ,提取 A 个 最 大 的 奇异 值 及 其 对 应 的 奇异 矢量 构成 新 矩阵 来 
近似 表示 原文 本 集 和 矩阵 4 。 

这 个 分 解 过 程 的 理论 基础 是 一 个 重要 的 数学 定理 .叙述 如 下 。 

对 于 mXn 阶 和 矩阵 4 ,存在 mXm 阶 正 交 和 矩阵 UU,nXn 阶 正 交 和 矩阵 V, 使 得 : 
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A=UEVT (6-12) 
其 中 ,U 和 Y 分别 是 矩阵 A 的 奇异 值 对 应 的 左 、 右 奇异 矩阵 ,U 的 列 向 量 和 VV 的 行 向 量 分 别 
为 4 的 左 、 右 奇异 向 量 。E 矩阵 式 m Xn 的 对 角 和 矩阵 ,对 角 线 上 的 元 素 为 非 负 值 。 假 设 和 矩阵 
4 的 秩 为 ,4 的 奇异 值 按 值 的 递减 排列 顺序 构成 对 角 和 矩阵 E,, 即 




















Al 
E,= (6-13) 
天 
其 中 ,二 ia 二 … 二 二 0 iaz,…v 为 矩阵 A 的 奇异 值 。 
例如 : 
1 5 9 
A=|l?6 10 
:| 
“1 
分 解 后 可 以 得 到 : 
[一 0.4036 0.7329 0.4120 0.3609 
|—0.4647 0.2898 一 0.8184 一 0.1741 
U5 |_0.5259 一 0.1532 0.4006 一 0.7345 
[一 0.5870 一 0.5962 0.0057 0.5477 
[25.4368 0 0 
r= | 2 W226 0 
0 0 0 
k: 光 0 0 
[一 0.2067 一 0.8892 0.4082 
V 0.5183 一 0.2544 一 0.8165 
[一 0.8298 0.3804 0.4082 
将 其 秩 取 3, 则 


一 0.4036 0.7329 
一 0.4647 0.2898 
一 0.5259 一 0.1532 
一 0.5870 一 0.5962 
25.4368 0 
二 [ 0 1. ed 
广 0.2067 一 0.8892 0. pd 
一 0.5183 一 0.2544 一 0.8165 
同时 左 奇异 向 量 U 表示 词 的 特性 ,中 间 的 奇异 矩阵 E 表示 左 奇异 向 量 的 一 行 与 右 奇异 
向 量 的 一 列 的 重要 程度 .数字 越 大 越 重 要 , 右 奇异 向 量 V 表示 文档 的 特性 。 
进行 奇异 值 分 解 后 ,可 以 进行 降 维 , 降 维 过 程 如 下 。 
(1) 取 一 个 适当 的 ,使 得 kr。 
(2) 保留 E, 中 前 & 行 & 列 得 到 新 和 矩阵 Ei ,再 取 U 和 VW 的 前 有 行 & 列 U 和 Vi, 这 里 得 


U= 
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到 的 Vi 就 是 文档 降 维 后 的 表示 ,其 显然 不 是 在 原来 的 词汇 空间 上 ,而 是 一 种 经 过 变换 后 的 
结果 。 

这 种 特征 变换 对 于 分 类 性 能 的 改善 表现 在 以 下 两 个 方面 。 

(1) 将 文档 变换 到 一 个 较 低 维 空间 中 ,降低 了 计算 复杂 度 。 自 然 有 利于 后 续 的 针对 文 
本 的 各 种 分 析 , 如 聚 类 、 分 类 等 。 

(2) 有 利于 提升 文本 表示 的 准确 性 ,提升 后 续 分 析 的 准确 性 。 可 以 通过 和 矩阵 相 乘 得 到 
新 的 文档 矩阵 , 即 : 








Ak 一 UkAE4eVZ (6-14) 
将 它 与 原始 的 4 矩阵 相 比 ,肯定 是 会 有 误差 出 现 ,但 是 由 于 在 降 维 过 程 中 ,进行 了 空间 的 压 
缩 ,一 些 语义 上 比较 相近 和 相关 词汇 可 能 会 被 合并 ,因此 去 除了 样本 中 的 相关 性 。 
SVD 在 实际 应 用 中 ,也 存在 一 定 的 问题 。 基 于 奇异 值 分 解 的 方法 进行 特征 提取 时 , 主 
要 是 通过 奇异 值 分 解 进行 特征 降 维 ,奇异 值 计算 是 一 个 OC) 的 算法 ,如 果 是 一 个 1000 维 
的 矩阵 ,Matlab 很 快 就 可 以 计算 出 其 所 有 奇异 值 ,但 是 当 和 矩阵 规模 增长 时 ,代价 就 会 成 3 次 
方 增长 ,这 时 就 需要 通过 并 行 计算 进行 求解 了 。 另 一 方面 的 问题 是 奇异 值 分 解 使 得 每 个 文 
本 向 量 经 过 投影 后 得 到 的 每 一 维 不 再 具有 明确 的 物理 意义 ,而 是 多 个 变量 的 综合 ,在 文本 里 
面 是 多 个 词 的 综合 。 


6.2.3 基于 深度 学 习 的 特征 提取 


机 器 学 习 近 些 年 发 生 了 一 次 变革 ,2006 年 之 前 ,机 器 学 习 领 域 进行 研究 工作 的 人 几乎 
都 在 进行 浅 层 学 习 的 研究 ,而 尝试 深度 学 习 构 架 的 全 部 都 失败 了 ,因为 训练 一 个 深度 有 监督 
前 馈 神经 网 络 会 趋向 于 产生 一 个 坏 的 结果 ,然后 将 其 变 浅 为 一 个 或 者 两 个 隐 含 层 。2006 
年 ,加 拿 大 多 伦 多 大 学 教授 Geoffrey Hinton 和 其 学 生 Ruslan Salakhutdinov 在 Science 上 
发 表 文 章 Reducing the Dimensionality of Data with Neural Networks 则 成 功 解决 了 深度 学 
习 方 法 中 的 难题 ,从 此 以 后 .深度 学 习 开始 受到 各 领域 专家 学 者 的 青睐 ,Google 公司 更 是 通 
过 深度 学 习 来 训练 机 器 ,打败 了 围棋 大 师 李 世 石 。 

深度 学 习 的 概念 源 于 神经 网 络 ,深度 学 习 通 过 对 底层 特征 进行 组 合 , 从 而 抽取 出 更 深层 
的 特征 ,获得 样本 数据 的 分 布 式 表示 ,而 分 布 式 特征 则 是 通过 深度 学 习 模型 中 的 神经 网 络 结 
构 中 的 各 个 隐 含 层 逐 层 获得 的 。 深 度 学 习 的 网 络 结构 非常 复杂 ,计算 量 大 ; 并 且 由 于 深度 
学 习 的 网 络 结构 涉 及 多 个 非 线性 的 处 理 单元 层 而 导致 它 的 非 凸 目标 的 代价 函数 计算 过 程 中 
存在 局 部 最 小 的 问题 ,在 计算 过 程 中 很 可 能 在 没有 找到 全 局 最 小 的 情况 下 而 终止 计算 。 例 
如 ,深度 学 习 在 进行 梯度 下 降 过 程 中 ,很 可 能 出 现 没有 得 到 该 过 程 的 全 局 最 优 解 而 是 得 到 了 
局 部 最 优 解 就 停止 运算 。 

本 节 需 要 一 定 的 神经 网 络 基础 ,本 质 上 讲 ,深度 学 习 就 是 深层 的 神经 网 络 。 近 年 来 , 深 
度 学 习 在 文本 处 理 领 域 有 所 突破 ,根据 递归 神经 网 络 和 循环 神经 网 络 所 发 展 出 的 深度 学 习 
算法 已 经 能 够 很 好 地 进行 文本 分 类 和 文本 情感 预测 等 任务 。 而 深度 学 习 进 行文 本 分 类 实际 
上 是 深度 学 习 进 行 特征 提取 ,然后 用 分 类 器 进行 分 类 ,本 质 上 深度 学 习 算 法 的 任务 是 特征 
提取 。 

深度 学 习 进 行 特 征 提取 采用 的 是 无 监督 的 方法 ,利用 递归 自 编码 方法 进行 特征 提取 , 递 
归 自 编码 (Recursive Auto Encoder,RAE) ,是 自 编码 方法 的 一 个 变形 。RAE 方法 属于 深度 
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学 习 领 域 ,深度 学 习 可 以 简单 理解 为 层次 很 深 的 神经 网 络 ,而 事实 上 深度 学 习 就 是 从 人 工 神 
经 网 络 发 展 而 来 的 。 而 神经 网 络 在 文本 情感 分 类 中 的 最 大 作用 是 特征 提取 ,这 也 是 文本 情 
感 分 类 中 最 重要 的 部 分 。 一 个 神经 网 络 , 假 设 输入 和 输出 是 基本 相同 的 ,然后 训练 调整 它 的 
参数 ,得 到 每 一 层 的 权重 ,就 可 以 得 到 输入 的 不 同 表示 ,每 一 层 就 代表 一 种 表示 ,这 些 表示 在 
文本 情感 分 类 中 就 是 特征 。 

自 编码 方法 (Auto Encoder,AE) 是 20 世纪 80 年 代 晚 期 提出 来 的 ,最 基础 的 自 编码 方 
法 可 以 视 为 一 个 三 层 神经 网 络 结构 : 一 个 输入 层 、 一 个 输出 层 、 一 个 隐 含 层 , 其 中 输入 层 与 
输出 层 具有 相同 的 规模 。 自 编码 方法 的 抽象 结构 如 图 6-3 所 示 。 


input code reconstruction 
一 | Encoder -| Decoder 





























图 6-3 自 编码 方法 的 抽象 结构 


从 图 6-3 中 可 见 , 自 编码 方法 分 为 编码 器 (Encoder) 和 解码 器 (Decoder) 两 部 分 ,从 输入 
层 到 隐藏 层 是 编码 部 分 ,从 隐藏 层 到 输出 层 是 解码 过 程 ; 即 从 input 输入 到 一 个 Encoder 编 
码 器 中 ,会 得 到 一 个 编码 code, 将 编码 code 输入 到 解码 器 Decoder 中 就 会 得 到 一 个 信息 。 
如 果 该 信息 与 输入 input 是 相似 的 , 则 可 以 认为 该 code 是 可 以 用 来 代替 input 的 ,该 code 
可 以 认为 是 input 的 一 个 表示 ,在 文本 分 类 中 即 可 认为 是 文本 的 一 个 特征 。 
自 编码 神经 网 络 算法 是 无 监督 学 习 算法 , 它 使 用 了 反 向 传播 算法 ,并 让 目标 值 等 于 输入 
值 。 换 名 话说 ,就 是 自 编码 方法 通过 第 一 层 得 到 的 code, 然 后 做 最 小 化 重 构 误差 ,并 将 第 一 
层 的 code 作为 第 二 层 的 输入 ,输出 第 二 层 的 code, 然 后 最 小 化 重 构 误差 ,作为 第 三 层 的 输 
入 ,以 此 类 推 , 逐 层 训练 ,就 会 得 到 第 N 层 的 code, 每 一 层 的 code 都 是 input 的 一 个 表示 ,也 
是 文本 中 的 特征 。 通 过 上 面 的 方法 可 以 得 到 很 多 层 的 特征 ,而 最 后 还 要 进行 有 监督 的 微调 ， 
微调 的 层 数 要 自己 进行 实验 来 判断 ,尽量 找到 最 优 解 。 
RAE 方法 采用 词 向 量 来 表示 文本 中 的 词汇 ,给 定 一 个 含有 mm 个 有 序 词 的 句子 ,第 i 个 
词 的 词 向 量 表示 为 zx… 则 
zi 一 LO ER (6-15) 
式 中 ,LE R"WI 表 示 词 向 量 和 矩阵, |V | 为 词汇 个 数 ; bs 为 一 个 二 值 向 量 , 即 只 有 第 k 个 元 素 
值 为 1, 其 他 值 为 0。 则 含有 m 个 有 序 词 的 句子 可 以 用 向 量 表示 为 1, ，… ,Tm。 
自动 编码 的 目的 是 学 习 输 入 信号 的 一 种 表示 ,而 获取 句子 低 维度 的 向 量 表示 需要 句子 
的 树 形 结 构 作 为 先 验 知识 , 先 假 设 已 知 句子 的 树 形 结构 , 则 其 递归 神经 网 络 模 型 和 单个 神经 
元 模型 如 图 6-4 和 图 6-5 所 示 。 
假设 已 知 句子 的 向 量 表 示 为 z 二 {zi ,zx2,zx3,x4) ,同时 给 出 其 二 又 树 表 示 形 式 , 如 图 6-4 
所 示 , 可 以 得 到 表示 父 结 点 和 子 结 点 之 间 关 系 的 三 元 组 如 下 : {Cy 六 zz2) (yz y173) 
(ys 下 yzz4)) ,同时 隐 层 表示 y 与 词 向 量 x 具有 相同 的 维度 。 
根据 三 元 组 的 形式 ,可 以 计算 每 个 父 结 点 的 向 量 表 示 。 假 设 (ccrai)=(zyzz), 则 
2 为: 
p= tanh(WiLc;;canj+t+h) (6-16) 
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图 6-4 递归 神经 网 络 模型 
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图 6-5 单个 神经 元 模型 
式 中 ,Wi 为 nX2n 的 参数 矩阵 ; b 为 偏差 。 然 后 可 以 通过 增加 重 构 层 ( 即 图 6-4 中 的 空心 
部 分 ) 来 重 构 父 结 点 的 子 结 点 ,以 此 来 判断 得 到 的 父 结 点 能 否 能 够 很 好 地 表示 子 结 点 的 信 
息 , 重 构 的 子 结 点 为 : 





[cscin] = Wzp+t bs 
训练 过 程 中 ,目标 是 最 小 化 重 构 子 结 点 与 原子 结 点 之 间 的 误差 : 
Eu([ciicna]) = 到 (全 cl 十 1c 一 ca? (6-17) 


在 此 ,假设 句子 的 树 形 结构 是 已 知 的 ,然而 实际 中 大 多 数 句 子 的 树 形 结构 是 未 知 的 ,所 
以 需要 先 学 习 输 入 信号 的 树 形 结构 , 树 形 结构 的 学 习 目 标 是 在 由 句子 中 词 向 量 的 组 合 的 所 
有 可 能 的 树 形 结构 中 ,得 到 重 构 误差 最 小 的 树 形 结构 。 所 以 下 面 的 内 容 是 对 上 面 内 容 的 补 
充 , 采 用 一 种 贪心 的 算法 来 得 到 最 优 的 树 形 结构 。 

首先 ,定义 A(z) 表 示 句 子 工 所 有 可 能 的 树 形 结构 的 集合 ,T(y) 表 示 用 非 终结 符 * 检索 
时 返回 三 元 组 的 函数 , 则 采用 Ee 函数 进行 重 构 误差 ,并 且 采 用 RAEo(x) 函 数 进行 树 结构 预 


测 过 程 优化 : 
RAEs(x) = argmin >， EreCLeiscm)) (6-18) 
>yE4CD Ely 
贪心 算法 如 下 。 


假设 有 句子 z 一 {zi zavzsvzi}, 则 ， Bb BB 


(1) 记录 每 次 计算 的 p; 和 EE;, 如 图 6-6 所 示 。 OE 
如 果 已 二 尼 Es , 则 选择 最 小 的 重 构 误差 得 到 第 一 个 父 
结 点 力 : 。 G) Ce) Go) (9) 


(2) 巨 值 最 小 的 p 结 点 下 沉 取 代 两 个 子 结 点 ,继续 计算 ， 图 6-6 计算 p; 和 E; 
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如 图 6-7 所 示 继 续 计 算 p; 和 E;。 


如 果 El 二 Es, 那么 选择 重 构 误差 最 小 的 父 结 点 p1。 继 续 重 复 , 每 次 选择 重 构 误差 最 小 
的 结 点 构建 树 结构 ,直到 最 后 得 到 根 结 点 结束 。 
最 后 合并 获得 的 根 结 点 和 相应 的 玉 值 ,如 图 6-8 所 示 。 





@Y 


图 6-8 合并 





最 终 得 到 句子 + 二 {zi ,zx2 ,zx3,T4) 的 最 优 树 结构 ,其 根 结 点 可 以 表示 为 : 
pz = 站 (rizrz)(zs zi))》 
这 样 计 算得 到 的 最 优 树 结构 中 每 个 结 点 对 于 树 的 贡献 是 平均 的 ,然而 实际 应 用 中 ,句子 
中 不 同 词汇 对 于 整个 句子 的 含义 是 不 同 的 。 所 以 可 以 采用 增加 权 值 ,更 好 地 体现 词汇 对 于 
句子 的 不 同 重要 性 。 即 : 


| | | ~" Mit np 2 > 
Er (Leiscin];0) 有 lel te ca (6-19) 


式 中 ,nt 和 ma 分别 为 当前 结 点 c 和 ci+ 下 的 词 的 数量 。 同 时 , 重 构 最 小 误差 的 <: 和 cf: 则 
为 ci 和 ci 表示 的 词 的 特征 向 量 。 

深度 学 习 算 法 在 进行 特征 提取 时 ,能够 凭借 大 量 的 计算 提取 出 深层 特征 ,深层 特征 携带 
大 量 浅 层 特征 无 法 描述 的 信息 ,对 于 文本 分 类 任务 更 有 帮助 ,但 深度 学 习 算 法 进行 特征 提取 
的 代价 比 其 他 特征 提取 方法 要 大 得 多 。 


6.3 文本 的 向 量 空间 模型 


文本 是 大 数据 中 的 一 重要 类 型 .是 一 种 典型 的 非 结构 化 数据 ,是 大 数据 分 析 的 关键 。 在 
获得 文本 中 的 词汇 及 其 特征 之 后 ,需要 有 一 种 合适 的 模型 对 这 些 特征 进行 数学 表示 ,以 便 基 
于 文本 内 容 的 各 种 分 析 应 用 能 够 有 效 地 展开 。 此 类 的 数学 表示 模型 主要 的 有 两 大 类 , 即 向 
量 空间 模型 和 概率 模型 。 

这 里 应 当 区 分 文本 的 向 量 表 示 和 文本 的 向 量 空 间 模 型 两 个 名 称 。 在 许多 的 场合 下 都 是 
把 文本 表示 成 为 一 个 向 量 ,如 SVD 分 解 提取 后 及 LDA 变换 后 的 文本 实际 上 都 是 用 向 量 表 
示 文 本 。 而 向 量 空 间 模 型 (VSM) 是 一 种 特 指 . 特 指 维 度 为 词汇 的 文本 表示 方法 。 


6.3.1 向 量 空间 模型 的 维 


在 线性 代数 中 介绍 过 向 量 空间 模型 , 它 由 基 向 量 和 坐标 构成 。 对 于 一 个 对 维 向 量 空间 
QQ, 它 的 基 向 量 是 一 组 个 线性 无 关 的 向 量 。 而 对 于 在 这 个 n 维 空间 中 的 一 个 非 零 向 量 @， 
设 这 个 线性 空间 的 个 基 坐 标 为 C1 .2。.… 2: 则 向 量 Z 可 以 表示 成 : 











150 互联 网 大 数据 处 理 技术 与 应 用 


下 一 牛人 十 和 人 十 … 十 局 。 (Aba ,As 不 全 为 0) 

此 时 , 称 向 量 # 在 维 空间 Q 上 的 坐标 为 (&1.k,…,k,)。 在 实际 应 用 中 ,通常 使 用 第 i 
个 分 量 2; 二 1, 其 他 分 量 为 0 的 单位 向 量 作为 向 量 空间 的 基 向 量 。 在 向 量 空间 模型 的 假设 
中 ,各 个 基 向 量 是 相互 独立 的 。 

应 用 到 文本 内 容 的 建 模 表示 上 , 基 向 量 就 是 特征 词汇 。 特 征 词汇 是 经 过 适当 的 特征 提 
取 方 法 选择 出 来 的 ,根据 不 同 的 应 用 场景 有 不 同 的 选择 方法 。 假 设 选择 出 来 的 词汇 集 是 
玉 二 {wr ,wz ,tor), 则 表示 有 个 特征 词汇 , 即 构成 了 一 个 n 维 空间 。 根 据 向 量 空 间 模型 
的 假设 ,在 文本 的 向 量 表示 中 ,也 就 意味 着 这 个 词汇 之 间 是 相互 独立 的 。 

文本 在 向 量 空间 中 的 坐标 就 是 每 个 特征 词汇 在 该 文档 中 的 权重 ,而 权重 有 多 种 不 同 的 
量化 方法 ,这 样 可 以 把 一 个 文本 表示 为 一 个 特征 向 量 。 


6.3.2 向 量 空间 模型 的 坐标 


在 VSM 中 ,文本 在 向 量 空间 中 的 坐标 由 文本 中 特征 词汇 的 权重 表示 ,该 权重 有 多 种 计 
算 方法 ,其 中 主要 的 有 TF、TF-IDF 等 。 下 面 分 别 介绍 一 些 常用 的 特征 向 量 权重 的 计算 
方法 。 

1. Boolean 权重 (0-1 权重 ) 

布尔 权重 是 最 简单 的 一 种 权重 表示 方法 ,记录 特征 词 是 否 在 文本 中 出 现 过 。 当 该 特征 
词 在 某 一 文档 中 出 现 过 , 则 文档 映射 到 该 特征 词 的 维度 上 的 权重 为 1; 若 未 出 现 过 , 则 为 0。 

布尔 权重 只 考虑 了 特征 词 是 否 出 现 过 ,没有 考虑 到 特征 词 出 现 次 数 对 特征 词 在 表达 意 
义 上 的 重要 程度 的 影响 。 通 常 意义 下 ,出现 次 数 更 多 的 特征 词 更 能 够 代表 文档 所 表达 的 
主题 。 

这 种 表示 方法 一 般 在 搜索 引擎 中 用 得 比较 多 ,因为 在 搜索 中 通常 只 要 求 所 提供 的 检索 
词汇 是 否 出 现在 文本 中 ,而 不 管 它 出 现 了 多 少 次 。 

2. TF 方法 

TF 方法 是 指 特征 项 频率 权重 (Term Frequency) ,其 主要 思想 为 将 文本 中 特征 词 出 现 
的 频数 作为 文本 向 量 映射 到 该 特征 词 的 维 上 面 的 坐标 ,通过 特征 词 的 出 现 频率 来 判断 文档 
与 特征 向 量 表示 的 词汇 组 的 相关 度 。TF 权重 的 定义 式 为 ; 


T= 





(6-20) 


上 述 为 特征 词 权重 的 归 一 化 表示 ,表示 一 个 特征 词 在 文档 中 提 到 的 所 有 特征 词 中 的 比 
重 .其 中 nj 是 特征 词 4 在 文档 a; 中 出 现 的 次 数 , >)w 则 统计 了 在 文档 中 所 有 特征 词 的 
数量 。 

显然 ,TF 方法 简单 容易 理解 ,基于 这 种 权重 计算 方法 ,除了 一 些 常见 的 停 用 词 外 ,TF 


值 越 大 的 词汇 . 它 就 越 能 反映 文本 内 容 的 含义 。 也 就 是 说 ,从 理解 文本 内 容 主题 的 角度 看 ， 
TF 权重 计算 方法 还 是 有 效 的 。 
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然而 ,如 果 从 多 个 文档 的 可 区 分 度 的 角度 来 看 ,TF 方法 就 会 存在 较 大 的 局 限 性 。 一 个 
在 所 有 文档 里 面 都 出 现 多 次 的 特征 词 对 体现 文本 的 特征 基本 没有 作用 ,因为 所 有 的 文档 都 
包含 这 些 特 征 词 , 从 而 不 能 通过 这 些 特 征 词 获取 关于 文档 的 进一步 信息 。 而 在 某 些 特定 文 
档 里 面 才 会 出 现 的 特征 词汇 则 会 对 不 同文 本 有 较 好 的 分 辩 作 用 ,可 以 利用 这 些 特征 词 很 快 
地 在 文本 集中 进行 一 定 范围 内 的 定位 和 分 类 。 

3. TF-IDF 方法 

许多 的 文本 内 容 分 析 中 ,都 非常 关注 文本 的 区 分 度 , 如 在 文本 分 类 中 ,TF-IDF 方法 就 
是 在 TF 方法 基础 上 增加 了 区 分 度 因子 。 

TF-IDF(Term Frequency-Inverse Document Frequency, 词 频率 - 道 文档 频率 ) 方 法 同时 
考虑 了 特征 词 出 现 频率 ,以 及 该 词 在 不 同文 章 中 出 现 的 篇 目 数 ,其 主要 思想 是 : 特征 词 在 文 
档 中 的 权重 为 特征 词 在 文档 中 出 现 的 频数 与 反比 于 包含 该 特征 词 的 文档 数目 的 因子 有 关 ， 
通过 文档 的 区 分 度 来 评估 特征 词 的 重要 程度 。 传 统 的 TF-IDF 公式 如 下 : 














7 N 
TF-IDF (aj ,ti) = — x log Ny (6-21) 
Di 
式 中 ,ni 是 特征 词 4 在 文档 a; 中 出 现 的 次 数 ; Dns 是 文档 中 出 现 的 特征 词 的 总 数 ; N 是 
N 





文本 总 个 数 ; NG4) 是 包含 该 词语 4; 的 文件 总 数 ,公式 中 的 因子 log 六 就 是 IDF 的 值 ,可 
见 ,如 果 一 个 词 在 所 有 文档 中 都 出 现 , 则 IDF = 0. 有 的 实现 中 ,为 了 避免 这 个 问题 而 导致 基 
个 维度 的 权重 值 与 TF 无 关 , 加 上 一 个 很 小 的 数 ,如 用 log (人 十 0.0001) 之 类 的 方法 来 


代替 IDF。 

在 式 (6-21) 中 ,可 以 把 前 面 的 一 个 乘法 因子 称 为 TF 值 ,后 面 的 因子 称 为 IDF 值 。 上 面 
的 公式 将 TF-IDF 权重 表示 为 特征 词 词 频 归 一 化 ( 单 文档 中 单一 特征 词 数量 与 所 有 特征 词 
数量 的 比值 ) 与 出 现 该 特征 词 篇 目 和 总 文档 集 篇 目 数 比 例 相关 的 函数 的 乘积 ,体现 了 下 面 的 
两 个 特征 词 评判 思路 。 

(1) 一 个 词 在 一 个 文件 中 出 现 频繁 ,能 有 效 代表 文本 内 容 。 例 如 ,对 系统 安全 方向 的 学 
术 论 文 来 说 ,权限 *“ 身 份 ”等 词语 就 会 使 用 得 很 频繁 ; 而 网 络 安 全 方向 的 论文 则 常用 * 协 
议 ”“ 连 接 ” 等 词汇 。 这 些 词 由 于 只 在 特定 文本 中 频繁 出 现 而 在 其 他 类 型 的 文本 中 出 现 得 很 
少 ,因此 可 以 起 到 有 效 地 表征 文档 内 容 的 作用 。 

(2) 从 整个 文本 集 的 角度 看 ,一 个 词 在 多 个 文件 中 均 出 现 较 频繁 ,对 于 这 些 文本 来 说 该 
词 含有 较 少 的 信息 量 , 反 之 ,如 果 一 个 词 在 少数 文件 中 出 现 ,那么 它 对 于 在 该 文本 集中 进行 
不 同文 本 的 区 分 就 具有 显著 作用 。 

表 6-1 是 一 个 TF-IDF 权 值 计算 的 示例 ,已 知 有 下 面 的 三 篇 文档 (A、B、C) 和 对 应 维度 
的 特征 词 (wi ,ws，… ,wi), 表 格 中 的 数值 表示 每 个 词汇 在 文档 中 出 现 的 次 数 。 按 照 
TF-IDF 来 进行 文本 的 向 量 表示 ,要 按照 确定 维度 (词汇 ) ,确定 权重 、 写 成 向 量 形式 3 个 
步骤 。 
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表 6-1 TF-IDF 权 值 计算 的 示例 





























维度 /文档 A B Cc 
wl 2 1 0 
Yoz 0 0 1 
Wa 0 1 0 
wa l 1 0 
ws 0 0 0 
ws 1 1 0 
wy 0 1 














在 表 6-1 中 ,首先 观察 每 个 词汇 的 特点 ,特别 注意 到 词汇 ws 在 整个 文档 集中 并 不 出 
现 ,因此 应 当先 排除 掉 这 种 词汇 ,否则 IDF 无 法 计算 ,也 没有 实际 意义 。 

通过 扫描 文档 内 容 获 得 该 文档 中 各 个 特征 词 的 出 现 频 率 ,之 后 计算 文档 A 的 TF-IDF 
值 。 根 据 TF-IDF 的 公式 , 若 考虑 特征 词 ww ,该 词 在 文档 A 中 出 现 了 两 次 (mi 二 2) ,文档 A 


中 特征 词 一 共 出 现 了 5 次 { 忆 太 二 5)， 则 CN=3)， 


TF-IDFA = 二 xlog3 


2 
考虑 特征 词 ww 时 ,这 个 词 在 A 中 出 现 了 一 次 ,一 共有 两 篇 文章 (N(4;) 二 2) 出 现 了 这 个 
特征 词 , 则 可 得 : 


TEF-IDFA。 = 二 x log 立 


2 
A [5 x log 3 0:0; Xlog3 xlog 
5 5 Pa 





vw 





= [0.070 436,0,0,0.035 218,0.035 218,0. 035 218] 

同 理 可 得 BC 两 文档 的 向 量化 权 值 。 

4.TF-IDF 权重 的 评价 

在 实际 的 应 用 以 及 后 续 改 进 中 ,TF-IDF 方法 体现 了 比较 好 的 应 用 效果 ,能 够 进行 有 效 
的 文本 向 量 的 处 理 与 分 类 ,以 及 话题 提取 等 工作 ,在 文本 信息 处 理 里 面体 现 了 较为 优秀 的 性 
质 。 但 是 ,朴素 的 TF-IDF 权重 计算 方法 也 存在 一 些 不 灵活 的 地 方 。 

TF-IDF 方法 将 整个 文本 集 看 作 一 个 整体 ,对 于 特征 词 出 现 的 文章 篇 目 数 的 统计 中 ,是 将 
所 有 的 文章 看 作 一 个 整体 ,统计 所 有 文章 里 面 出 现 该 特征 词 的 篇 目 数量 。 对 于 TF-IDF 的 一 
个 重要 应 用 文本 分 类 问题 ,一 些 分 类 效果 明显 的 特征 词 只 会 出 现在 特定 范围 的 文本 里 面 ( 即 某 
一 类 文本 ) .本 来 应 该 是 分 类 效果 较 好 的 特征 词 ,然而 根据 TF-IDF 的 计算 方法 ,由 于 该 特征 词 


出 现 的 次 数 比较 多 ,从 而 其 TDF,=log( NS )} 会 变 小 , 则 这 个 特征 词 的 权重 会 变 小 。 


对 于 含有 分 类 训练 文本 集 的 情况 .改进 的 IDF 计算 方式 考虑 了 特征 词 在 各 个 类 里 面 的 
出 现 情况 ,计算 方式 如 下 : 





IDFic 一 log ay = 二 os( 汪 ) 


式 中 , 的 含义 不 变 ; n 是 包含 特征 词 1; 的 文档 数 ; m 指 类 别 C 包含 的 文本 里 面 特征 词 1， 


(6-22) 
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出 现 的 篇 目 数 ;& 指 除 类 别 C 以 外 的 文本 中 该 特征 词 出 现 的 篇 目 数 。 

此 外 的 一 个 问题 是 TF-IDF 方法 没有 能 够 反映 特征 词 出 现在 文本 不 同位 置 的 影响 ,对 
于 一 篇 文章 ,在 标题 .摘要 或 者 特定 部 分 中 的 文字 通常 起 到 概括 全 文 重点 ,或 者 表述 特殊 信 
息 的 作用 ,对 于 分 析 内 容 更 加 重要 。 在 实际 的 信息 处 理 中 ,对 于 网 络 上 的 网 页 信息 这 个 问题 
则 更 为 明显 ,Web 网 页 信息 中 的 HTML 格式 对 于 文本 内 容 结构 有 明确 的 规定 ,可 以 用 于 提 
取 和 分 析 不 同 段落 的 信息 。 因 此 在 实际 处 理 文本 信息 时 ,考虑 对 不 同位 置 的 特征 词 赋予 不 
同 的 权重 ,能 够 更 准确 地 对 文章 进行 内 容量 化 , 即 表示 为 : 

TF-IDF = (atff + aztf¥ + + ar tf Jidf; (6-23) 

式 中 ,aa ,az，… war 为 文本 中 不 同位 置 设 定 的 权重 ; 





























idf; = log (Nb) 


在 实际 的 操作 中 ,TF-IDF 权重 的 计算 需要 遍历 所 有 的 特征 词 与 文本 ,因此 针对 增 量 式 
文本 集 ,在 计算 新 文本 时 ,由 于 文本 篇 数 的 变化 , 则 需要 重新 计算 TF-IDF 的 值 。 鉴 于 此 可 
以 将 构成 TF-IDF 的 两 部 分 分 别 存储 和 计算 ,这 样 在 更 新 文本 数据 时 只 需要 更 新 IDF 的 值 。 

TF-IDF 方法 的 局 限 性 在 于 其 适用 于 长 文章 而 不 适用 于 较 短 的 文字 段落 (如 微 博 或 单 
一 的 论坛 回帖 等 ) ,因为 段落 长 度 过 短 时 ,其 中 包括 的 特征 词 数量 也 较 少 ,这 样 不 同 段 落 不 容 
易 包含 相同 的 特征 词 ,从 而 IDF 值 总 体 偏 大 ,权重 的 区 分 度 较 低 ,量化 映射 的 效果 比较 差 。 


6.3.3 向量 空间 模型 中 的 运算 


通过 上 面 描述 的 TF-IDF 方法 将 文本 信息 映射 到 由 特征 词 表示 的 子 空间 中 的 特征 向 量 
后 ,对 于 文字 信息 的 处 理 就 转化 为 向 量 的 数值 处 理 。 下 面 介 绍 几 种 常用 的 向 量 处 理 方法 , 设 
两 个 向 量 为 P= (pi ,ps，…,p,) 与 = (gi ,gs,……,g,)。 

距离 运算 : 即 计 算 两 个 向 量 之 间 的 距离 .来 反映 两 个 文本 的 相似 度 , 这 种 运算 认为 两 篇 
文本 包含 的 特征 词 更 为 一 致 时 ,这 两 篇 文章 的 内 容 也 更 加 类 似 。 常 用 的 距离 运算 方法 有 以 
下 几 种 。 

(1) 计算 两 个 向 量 的 内 积 : 


BxG= 六 pa， (6-24) 
i=1 


向 量 内 积 的 缺陷 在 于 内 积 的 值 与 向 量 维 数 成 正 相关 , 维 数 高 的 向 量 的 内 积 通 常 更 大 ,因此 在 
判断 较 长 文章 的 相似 性 时 准确 度 会 受 影响 ,其 优势 是 计算 简单 。 
(2) 计算 两 个 向 量 的 余弦 值 : 


Dpig: 
i=1 


3 DD (gi)” 
余弦 计算 解决 了 向 量 维 数 影响 相似 度 的 问题 , 即 可 以 认为 余弦 值 与 向 量 维 数 无 关 。 在 


cos(P .0) = (6-25) 
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计算 时 需要 注意 两 个 向 量 不 能 全 为 零 向 量 , 另 外 由 于 有 开 方 和 除法 运算 ,余弦 值 计算 相似 度 
的 速度 较 慢 。 

除了 基于 向 量 空间 进行 文本 相似 性 计算 外 ,还 有 其 他 一 些 传统 方法 可 用 来 计算 ,例如 编 
辑 距离 (Levenshtein 距离 ): 它 是 指 对 于 两 个 不 同 的 字符 串 ,通过 改变 其 中 一 个 字符 串 的 某 
个 字符 (修改 、 添 加、 删除 ) ,使 两 个 字符 串 相等 的 最 小 改变 次 数 。 

编辑 距离 可 以 用 动态 规划 的 方式 求解 , 设 /Li,j] 为 两 个 字符 串 的 前 i 位 及 前 7 位 字 串 
的 编辑 距离 , 则 状态 转移 方程 为 : 








0 Ca 
| i=0,j>0 
A = i>0,j=0 
minCf[i— 1,7]+1, ti —1]+1 ti 1,j—1]+z) i>0ji>0 

(6-26) 


_/fo stri[i]=strz[j] 
其 中 ,z= stri[i]Astrz[)] 
(3 种 决策 对 应 添加 、 删 除 、 修 改 3 种 操作 ) 
编辑 距离 可 以 在 OC ) 的 时 间 复 杂 度 与 O(n) 的 空间 复杂 度 下 求解 。 


6.3.4 文本 型 数据 的 逻辑 存储 结构 


文本 型 数据 是 指 TXT 等 文本 型 的 数据 ,由 某 种 自然 语言 的 基本 词汇 构成 的 字符 串 数 
据 。 在 关系 型 数据 库 中 , 它 通常 是 当 作 字符 串 (String) 来 处 理 的 ,因此 所 能 进行 的 运算 非常 
有 限 , 一 般 就 只 有 字符 串 长 度 、 子 串 匹配 及 字符 串 链接 等 以 字符 串 为 基础 的 运算 ,而 没有 对 
字符 串 文本 内 容 含义 上 的 运算 。 因 此 ,在 互联 网 大 数据 中 ,文本 型 数据 非常 常见 的 情况 下 ， 
简单 的 运算 是 无 法 保证 大 数据 分 析 的 进行 。 

针对 互联 网 大 数据 ,文本 通常 会 被 分 为 长 文本 和 短文 本 两 种 情况 来 进行 处 理 。 这 里 的 
长 短 并 没有 一 致 的 长 度 界 限 。 短 文本 是 随 着 微 博 、 网 络 论坛 等 网 络 应 用 的 分 析 需 求 ,由 于 文 
本 短 而 导致 在 分 析 技术 上 出 现 了 一 些 有 别 于 长 文本 的 方法 ,因此 得 到 一 定 关注 。 

不 管 长 文本 或 短文 本 ,在 存储 结构 上 通常 会 采用 倒 排 索引 (Inverted Index, 也 称 反 向 索 
引 ) 结 构 。 这 种 结构 是 源 于 信息 检索 的 设计 , 它 以 关键 词 作为 索引 关键 字 和 链表 访问 入 口 ， 
索引 表 中 的 每 一 项 都 包括 一 个 属性 值 和 具有 该 属性 值 的 各 记录 的 地 址 , 即 是 某 个 关键 词 在 
一 个 文档 或 一 组 文档 中 的 存储 位 置 的 映射 。 

下 面 简单 介绍 倒 排 索引 结构 的 存储 原理 。 

假设 有 以 下 两 篇 文本 需要 存储 。 

文章 1 的 内 容 为 : Mary lives in Guangzhou,Ilive in Guangzhou too。 

文章 2 的 内 容 为 : He once lived in Shanghai。 

经 过 停 用 词 .词根 还 原 等 处 理 后 ,这 两 篇 文章 分 别 变 为 以 下 形式 。 

文章 1 的 所 有 关键 词 为 : [mary] [live] [guangzhou] [i] [live] [guangzhou]。 

文章 2 的 所 有 关键 词 为 : [he] [live] [shanghai]。 

构建 倒 排 关系 , 即 关 键 词 和 文章 的 对 应 关系 ,而 非 文章 和 关键 词 的 对 应 关系 。 

文章 1.2 经 过 倒 排 后 变 成 : 





第 6 章 大 数据 分 析 的 模型 与 算法 《 55 


关键 词 文章 号 
guangzhou 1 

he 2 

和 由 

live 本 
Shanghai 区 
mary 二 


这 个 即 是 最 基本 的 倒 排 搜索 结构 的 表示 形式 ,除了 这 种 映射 关系 以 外 ,保留 词汇 在 文档 
中 出 现 的 次 数 也 是 很 有 必要 的 ,这 样 可 以 为 以 后 基于 文本 的 向 量 空间 模型 的 运算 提供 基础 。 
同时 ,也 要 考虑 实际 应 用 中 的 一 些 特殊 需求 ,例如 检索 时 关键 词 加 亮 显示 等 。 因 此 ,综合 这 
些 因 素 , 倒 排 索引 结构 可 以 表示 为 : 








关键 词 文章 号 [出 现 频率 ] 出 现 位 置 


guangzhou 1[2] 8, 
he 2[1] 1 

i 1[1] 4 
live 1[2],2[1] 27572. 
shanghai 2[1] 3 
mary 1[1] 1 


而 在 实际 物理 实现 时 ,考虑 到 关键 词 .文章 和 位 置信 息 通 常 是 非常 多 的 ,因此 可 以 将 该 
索引 结构 的 三 列 分 别 作为 3 个 文件 来 存储 , 即 词典 文件 频率 文件 和 位 置 文件 ,其 中 词典 文 
件 不 仅 保 存 有 每 个 关键 词 ,还 保留 了 指向 频率 文件 和 位 置 文件 的 指针 ,通过 指针 可 以 找到 该 
关键 字 的 频率 信息 和 位 置信 息 。 


6.4 文本 的 概率 模型 


向 量 空 间 基 于 词 袋 的 独立 性 假设 , 即 bag of words, 因 此 它 无 法 体现 出 词汇 之 间 的 关 
系 ,也 就 没有 语义 表达 的 能 力 。 如 前 所 述 , 文 本 中 的 语义 体现 在 词汇 之 间 的 关系 上 ,因此 概 
率 模型 首先 就 是 考虑 如 何 将 词汇 先后 顺序 上 的 关系 反映 到 模型 中 ,然后 再 去 进一步 考虑 将 
文档 内 容 中 的 语义 信息 表达 出 来 。 由 此 就 产生 了 两 大 类 概率 模型 , 即 N-gram 模型 和 主题 
模型 。 最 近 兴 起 的 神经 概率 语言 模拟 (NPLM) 延 续 了 N-gram 的 假设 .但 在 计算 概率 时 , 采 
用 了 机 器 学 习 方法 而 非 简 单 的 计数 方法 ,因此 能 学 习 参 数 更 少 的 复杂 概率 函数 。 相 关 知 识 
在 5.2.3 和 6.2.3 节 中 介绍 过 。 


6.4.1 N-gram 模型 


1. N-gram 模型 及 变 体 

N-gram 模型 的 原理 是 将 自然 语言 中 的 文字 组 合 与 顺序 关系 看 作 随 机 过 程 ,统计 不 同文 字 
组 合 出 现 ( 即 连续 字符 形式 ) 的 概率 ,认为 同时 出 现 概率 较 大 、 次 数 较 多 的 文字 组 合 是 一 个 词 
组 。N-gram 模型 需要 统计 文本 中 的 所 有 连续 字符 集合 ,之 后 根据 统计 结果 进行 词汇 的 划分 。 

N-gram 模型 中 的 文本 连续 性 用 概率 的 形式 表示 ,p(w;) 表 示 文 字 w; 在 文本 中 出 现 的 
概率 , 即 为 unigram(n 二 1) ,p(wi|wi-i) 表 示 w;-1 后 面 一 个 字符 为 rw 的 概率 , 即 Bigram 
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(2 一 2), 当 2 一 3 时 ,trigram 用 p(wi|rwi-zrwi-i) 统 计 所 有 连续 3 个 字符 情况 下 ,wi-zwi-1 后 
面 接 wi 的 概率 ,n 的 值 更 大 的 时 候 以 此 类 推 。 
在 第 4 章 的 基于 统计 的 分 词 方法 中 介绍 过 N-gram .在 该 应 用 中 ,随机 变量 是 字 , 而 在 本 
节 的 文本 模型 表示 中 ,随机 变量 是 词汇 。 但 是 不 管 随机 变量 是 什么 ,模型 的 表示 是 一 样 的 。 
在 这 里 ,利用 N-gram 模型 计算 一 个 词汇 组 合 (文本 串 ) 的 概率 为 p(wiws…w,) ,其 中 
的 每 个 mw 表示 一 个 词汇 ,这 个 概率 值 可 以 用 概率 模型 的 链 式 规则 得 出 : 
思 (rzulruz rn) = pw pw | wi plws | wvwa) phn | zlruz…zorl) (6-27) 
当 n 比较 大 时 ,可 以 假设 词汇 之 间 的 出 现 是 相互 独立 的 ,从 而 可 以 简化 计算 : 
pwwarrw) = pw plws | wi pls | roz)… 思 (ro | wr-1) (6-28) 
也 可 以 利用 近似 结果 来 逼近 链 式 展开 的 准确 值 .对 于 条 件 概 率 ,只 考虑 前 面 个 词汇 的 组 合 
情况 , 式 (6-28) 即 为 n=2 的 情况 。 而 当 ==1 时 ,模型 称 为 unigram ,上述 文 本 串 的 概率 为 : 
六 (zutros 和 im) = pw pl wa) pws) ee p(w) (6-29) 
从 式 (6-29) 可 以 看 出 ,unigram 实际 上 是 假设 文本 中 每 个 词汇 相互 独立 。 这 就 类 似 于 
VSM 了 ,只 不 过 unigram 模型 是 建立 在 7 个 词汇 的 论 域 上 ,每 个 概率 值 p(wi) (i 二 1,2,…,n) 
来 自 一 个 多 项 式 分 布 。 也 就 是 说 ,词汇 这 个 随机 变量 的 取 值 是 从 多 项 式 分 布 随 机 选择 出 来 的 。 
考虑 下 面包 含 3 个 句子 的 训练 文本 集 : 








data mining and its application 
mining of bitcoin 
big data application of internet 


则 可 以 计算 句子 data mining of internet 的 概率 ,有 

P= p(data)p(mining | data) pl(of | mining)p(internet | of) 
在 这 里 p(data) 表 示 data 作为 句子 开头 的 概率 , 则 
到 














pldata) = 可 
另外 有 
pldata mining) _ num(data_mining) 1 
plmining | data) pldata) num(data) 2 
同 理 可 得 
plof | mining) = 工 
plinternet | of) = 二 
则 可 得 


eo RE 
Pe Xo 


在 实际 对 较 大 规模 数据 的 分 析 计 算 中 .P 的 值 会 非常 小 ,从 而 引起 下 溢 问 题 ,因此 可 以 
采取 对 概率 取 对 数 并 相 加 的 算法 。 

在 实际 应 用 中 ,对 于 存在 m 个 不 同 字符 (单词 ) 的 文本 集 , N-gram 需要 统计 所 有 长 度 为 
n 的 m* 个 组 合 分 别 进行 计算 ,无 论 是 时 间 消 耗 还 是 空间 消耗 都 非常 大 ,另外 由 于 单独 词汇 词 
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组 的 长 度 通常 都 较 短 ,因此 ?一 般 不 取 过 大 的 值 。 在 Google 的 检索 系统 里 面 ,” 的 取 值 为 5。 

对 比 向 量 空间 模型 的 文本 表示 方法 ,可 以 看 出 VSM 和 N-gram 在 文本 表示 上 的 差异 。 
VSM 中 文本 被 看 作 是 一 个 高 维 空间 中 的 点 ,词汇 的 权重 通过 坐标 反映 出 来 。 而 在 N-gram 
模型 中 ,文本 是 一 种 处 于 整个 词汇 空间 ( 域 ) 中 的 分 布 ,而 这 种 词汇 空间 及 其 权重 与 N-gram 
的 n 值 有 密切 关系 。 当 n=1 时 ,词汇 空间 就 是 文本 中 每 个 独立 的 词汇 ; 当 n= 二 2 时 ,词汇 空 
间 的 每 个 “词汇 ” 则 是 由 任意 两 个 词汇 组 成 的 词汇 对 。 但 是 ,不管 n 的 值 是 多 少 , 其 权重 都 是 
一 种 概率 ,满足 概率 的 公理 。 

混合 unigram 模型 则 是 后 来 提出 来 的 变 体 , 该 模型 假设 文本 中 包含 若干 个 主题 ,每 个 主 
题 在 文本 中 的 分 布 定义 为 p(<) ,而 每 个 主题 下 面 的 词汇 分 布 仍 是 一 个 多 项 式 分 布 。 那 么 整 
个 文本 的 概率 可 以 由 式 (6-30) 计 算 。 








plwwarws) = Dp lz) [Tp | <) (6-30) 
= i=I 


2. N-gram 模型 的 平滑 处 理 

在 上 文 给 出 的 训练 集 里 面 ,如 果 要 计算 big data and its application 的 概率 ,由 于 data 
and 组 合 不 存在 , 则 P(and|data) 二 0, 从 而 P(big data and its application) 二 0, 这 个 结果 是 不 合 
常理 的 。 这 是 因为 给 定 的 句子 中 的 单词 组 合 没 有 在 训练 集中 出 现 过 ,从 而 N-gram 模型 训练 时 
无 法 得 到 相关 的 信息 ,对 于 训练 集中 没有 出 现 过 的 情况 不 能 正确 地 计算 其 出 现 概率 。 

一 种 解决 方案 是 扩大 训练 集 ,这 种 方法 在 一 定 程度 上 能 够 缓解 上 面 的 问题 ,但 是 一 方面 
由 于 训练 集 总 是 有 限 的 ,因此 不 可 能 包含 无 限 的 自然 语言 组 合 的 情况 ; 另 一 方面 在 自然 语言 
中 ,大 多 数 词汇 属于 低频 词 .根据 zipf 定律 ,最 常用 的 部 分 词汇 会 占据 语言 文字 的 大 部 分 比 
例 , 而 多 数 词 汇 出 现 的 频率 极 低 。 因 此 难以 通过 训练 集 推测 其 出 现 规律 ,两 者 共同 导致 了 自 
然 语言 中 的 稀 玻 性 。 

注意 : zipf 定律 描述 了 词语 词 频 和 词 频 排序 之 间 关 系 , 当 某 个 词 的 词 频 为 下, 其 词 频 从 
大 到 小 排序 的 序数 为 RR, 则 有 FR 二 K( 常 数 )。 根 据 大 量 语 料 数据 的 统计 结果 ,可 以 发 现 所 
有 的 单词 中 常用 词 占 很 小 一 部 分 , 且 大 多 数 词汇 词 频 极 低 。 

训练 数据 的 稀疏 性 决定 了 N-gram 模型 的 局 限 性 在 于 计算 概率 时 只 能 统计 到 训练 文本 
集中 的 文字 组 合 的 情况 ,不 在 训练 文本 集中 的 词组 不 会 被 识别 ,从 而 影响 到 后 续 处 理 的 准确 
度 。 因 此 使 用 N-gram 模型 进行 信息 处 理 时 ,通常 需要 进行 平滑 操作 来 弥补 不 在 训练 集中 
的 词组 对 后 续 信 息 处 理 的 影响 .特别 当 值 越 大 时 ,这 种 平滑 处 理 的 必要 性 就 越 大 。 

N-gram 模型 的 平滑 处 理 是 指 修正 长 度 在 以 内 的 词组 的 概率 分 布 .为 没有 出 现 过 的 词 
组 赋 一 个 特定 的 值 代入 到 后 续 的 处 理 过 程 中 ,这 个 概率 值 通过 将 训练 集中 原 有 词组 的 概率 
适当 减 小 一 些 .再 将 减 小 的 量 分 配给 未 出 现 的 词组 .这 样 可 以 使 后 续 算法 考虑 到 没有 出 现在 
训练 文本 集中 的 词语 的 情况 。 根 据 减 小 的 策略 和 重新 分 配 的 原则 ,目前 形成 了 多 种 不 同 的 
平滑 方法 。 常 见 的 有 下 面 几 种 方式 。 

(1) Add-one 平 滑 。 假 设 所 有 未 出 现 的 词组 的 出 现 次 数 为 1, 将 所 有 可 能 出 现 的 词组 的 
出 现 次 数 加 1。 形 式 化 表示 为 : 





Cw ) 十 1 
CCrzolrz…z 1) VV 


式 中 ,V 为 所 有 的 长 度 为 n 并 且 以 ww1w2…w,-1 为 前 缀 的 可 能 词组 的 数量 ; C(， ) 表 示 词 组 


Plwn | Witwer ) 一 (6-31) 
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出 现 的 次 数 。 

由 于 在 枚 举 组 合 的 情况 下 ,很 多 词汇 的 组 合 实际 上 不 会 一 起 出 现 构 成 真实 文本 中 的 词 
组 ,因此 add-one 平 滑 会 增加 大 量 宛 余数 据 占据 整个 概率 空间 的 较 大 概率 分 布 ,另外 在 训练 
文本 集中 出 现 过 的 词组 的 频率 也 不 完全 相同 ,共同 增加 一 次 出 现 机 会 也 会 影响 已 有 词组 的 
概率 分 布 情况 。 基 于 上 面 的 问题 引出 了 下 面 的 add-delta 平滑 方式 。 

(2) Add-delta 平滑 。 假 设 所 有 未 出 现 词组 的 出 现 次 数 为 一 个 特定 值 delta(0 一 delta 一 1) ， 
具体 表现 为 如 下 形式 : 








CCrearoz…ron) 十 9 
CCrarz…zol) OV 

add-delta 平滑 减 少 了 前 者 的 宛 余数 据 过 大 的 问题 ,但 是 对 于 不 同 概率 分 布 的 训练 集 文 
本 中 的 增加 次 数 仍然 没有 解决 ,因此 平滑 效果 较 add-one 平滑 有 所 优化 ,但 仍然 不 理想 。 

(3) 组 合 平滑 。 这 种 平滑 方法 利用 N-gram 的 前 置 结 果 (” 更 小 时 的 N-gram 统计 ) 构 造 
N-gram 的 概率 分 布 , 即 用 低 阶 N-gram 的 值 表示 高 阶 N-gram 分 布 。 

组 合 平滑 考虑 到 长 度 更 长 的 词 的 组 成 概率 与 其 中 的 子 串 组 成 概率 相关 ,其 子 串 出 现时 
构成 该 词 的 前 提 条 件 ( 较 频 繁 出 现 的 短 词 更 容易 出 现在 长 词 里 面 ), 以 及 低 阶 N-gram 的 稀 
玻 度 弱 于 高 阶 N-gram( 所 有 的 单字 中 训练 文本 中 出 现 的 字数 比例 最 高 ,而 对 于 所 有 的 双 字 
组 合 , 在 训练 文本 中 出 现 过 的 双 字 组 合 比例 明显 少 于 单字 出 现 比 例 ) ,从 而 利用 低 阶 N-gram 
中 子 串 的 概率 分 布 求 高 阶 N-gram 中 的 概率 估计 值 既 可 以 考虑 到 原始 概率 分 布 ,也 可 以 解 
决 元 余数 据 的 问题 。 组 合 平滑 的 数学 表达 如 下 

Quan | wnt) 一 aiP(r) 十 azP(Or | rz 十 … 十 asP(Cs | zzoi) 
(6-33) 


pwn | zolruz zol) 一 (6-32) 





人 十 az 十 … 十 an 一 1 
St 


NO ne Es lg 
式 中 ,P 表示 平滑 前 的 概率 分 布 ; Q 表示 平滑 后 的 概率 分 布 。 即 Q 的 分 布 通过 P 的 分 布 的 
线性 插值 估计 .为 了 使 插值 结果 更 准确 .可 以 使 插值 权重 al ,az,…',a 与 历史 产生 关系 , 即 
作为 历史 数据 的 函数 ,也 可 以 通过 一 些 特定 算法 ,如 EM 算法 决定 。 
表 6-2 给 出 一 个 示例 及 对 这 个 用 例 进行 不 同 的 平滑 所 得 到 的 效果 ,给 定 下 面 的 词语 连 
接 分 布 。 表 6-2 中 表示 两 个 数值 ,一 个 是 词汇 组 合 出 现 的 次 数 , 男 一 个 是 对 应 的 概率 值 。 
表 6-2 平滑 的 示例 























w/w 的 

频数 /频率 | "| i words words word5 二 
wordl 0 3/ 言 12/ 桔 4 过 8/ 襄 0 
word2 2/ 言 0 9/ 萝 sy/ 二 5/ 十 WW 去 
word3 0 0 4/ 恋 16/ 基 25/ 0 
word4 0 1/ 吉 0 10/ 吉 0 20/ 弹 
word5 7/ 专 0 0 16/ 菇 0 0 
wr | 3 部 | 4 | 3/ 刘 ? 2 站 | 5 
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对 上 面 的 词组 统计 结果 进行 add-one 平滑 , 则 可 得 到 表 6-3 的 结果 。 


表 6-3 add-one 平 滑 




































































wi /ws 的 

频数 /频率 word1 word2 word3 word4 word5 word6 
word1 1/ 吉 4/ 寺 13/ 喇 5/ 襄 9/ 言 1/ 襄 
Wo 3/ L/ 让 wf 加 9/ 四 6/ 2/ 
word3 1 让 1 让 5/ 吉 17/ 卫 26/ 强 1/ 言 
word4 1 二 2/ 况 1/ 喜 1/ 臣 1 去 21/ 分 
To 8/ 潍 UL/ 这 1/ 沿 17/ 芭 1 让 1 而 
6 4 5/ 训 9/ 茹 L/ 壹 3/ 癌 6/ 亨 


3. N-gram 模型 的 应 用 

N-gram 的 核心 为 通过 文字 组 合 的 概率 进行 语义 分 析 , 即 词汇 分 析 , 下 面 介绍 几 种 N- 
gram 模型 的 实际 应 用 。 

(1) 分 词 : 根据 平滑 后 的 N-gram 模型 设 定 一 个 靖 值 , 当 词 组 出 现 概 率 大 于 该 闵 值 时 ， 
即 可 认为 是 一 个 独立 短语 。N-gram 模型 相对 于 传统 分 词 模型 不 再 需要 通过 词典 进行 分 词 
的 过 程 ,从 而 能 够 更 好 地 适应 新 词 及 文本 集 的 变化 ,避免 分 词 过 程 受 到 词典 范围 的 限制 ,并 
且 不 会 出 现 歧义 问题 。 

(2) 拼写 检查 : 同样 通过 阔 值 设 定 判断 当前 输入 短语 是 否 为 一 个 成 词 , 这 样 可 以 检测 
出 拼写 错误 。 对 于 拼写 纠正 ,需要 找到 和 当前 词 最 接近 的 词 进行 纠正 。 词 汇 间 的 接近 程度 
需要 利用 前 面 的 编辑 距离 .提取 编辑 距离 最 近 的 词汇 可 以 通过 BK 树 解决 。 

(3) 机 器 翻译 : 在 翻译 过 程 中 利用 N-gram 模型 进行 分 词 之 间 的 翻译 。 

(4) 语义 识别 : 根据 N-gram 模型 结果 分 离 出 的 短语 词组 进行 知识 获取 ,并 可 以 利用 语 
义 识别 。 


6.4.2 概率 主题 模型 


概率 主题 模型 是 从 生成 式 的 角度 进行 文本 建 模 的 , 它 在 文档 和 词汇 中 间 加 入 了 主题 层 ， 
这 是 一 种 隐 含 在 单 文本 或 多 文档 中 的 语义 信息 ,与 词汇 层面 上 属性 特征 和 句子 层面 的 词汇 
关系 特征 。 这 种 语义 信息 就 是 属于 粒度 比较 粗 的 语义 信息 ,因此 它 在 分 析 文 档 层面 语义 的 
作用 就 会 比较 突出 ,特别 是 针对 多 文本 的 与 情 分 析 应 用 。 这 方面 的 模型 近年 来 研究 得 比 
较 多 。 
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1. PLSA 模型 

1) PLSA 概述 

向 量 空 间 模型 是 一 个 比较 好 的 用 来 表示 自然 语言 内 容 的 数学 模型 ,然而 向 量 空间 模型 
的 一 个 主要 问题 是 向 量 空间 模型 以 单一 字符 串 构成 的 词 为 空间 的 维 ,因而 向 量 空间 模型 无 
法 处 理 同义词 问题 , 即 意思 相同 的 词汇 处 理 为 不 同 的 维度 ,以 及 一 个 多 义 词 只 能 按 其 中 一 个 


意义 处 理 , 而 


N-gram 模型 在 处 理 文本 信息 时 也 有 同样 的 问题 。 


基于 上 述 问题 ,后 来 的 研究 在 奇异 值 分 解 SVD 的 基础 上 提出 了 潜在 语义 分 析 方法 , 即 
LSA/LSI 方 法 ,并 在 信息 检索 中 展现 了 LSA/LSI 具备 一 定语 义 检索 的 能 力 。 这 种 方法 在 


表示 文本 时 ， 
算 , 与 基于 向 


是 将 文本 转换 成 为 男 一 个 空间 中 的 向 量 ,对 文本 集 的 分 析 本 质 上 是 对 向 量 的 运 
量 空间 模型 的 分 析 应 用 方法 一 样 。 要 进行 话题 的 提取 ,基于 向 量 的 分 析 方法 ， 


只 能 是 从 空间 中 点 的 分 布 的 角度 来 处 理 , 如 采用 各 种 聚 类 算法 。 其 缺点 在 于 , 聚 类 结果 没有 
一 种 形式 化 的 表示 ,也 就 不 利于 更 多 的 应 用 展开 。 因 此 ,PLSA/PLSI 和 LDA 模型 就 从 另 
一 个 角度 来 解决 这 个 问题 ,它们 引入 了 产生 式 的 思想 。 

PLSA 模型 , 即 概率 潜在 语义 分 析 (Probabilistic Latent Semantic Analysis) ,是 一 种 基 
于 概率 分 布 的 文本 产生 模型 ,多 用 于 自然 语言 处 理 文本 分 析 和 话题 分 析 等 领域 。 

PLSA 模型 的 主要 思想 为 文档 基于 某 种 生成 模型 产生 ,把 文本 看 作 一 个 词汇 集合 ,通过 
一 定 的 规则 生成 一 个 有 含义 的 词语 序列 。PLSA 模型 首先 假设 文本 服从 一 定 的 话题 分 布 ， 
即 文本 根据 话题 分 布 的 情况 产生 ; 而 话题 又 表现 为 单词 的 分 布 ,由 单词 的 分 布 情况 确定 ,每 
个 话题 有 其 特定 的 使 用 词汇 集 及 各 个 词语 的 分 布 。 PLSA 模型 将 文档 的 产生 过 程 理解 为 首 
先 产 生 话题 分 布 ,这 样 根据 话题 分 布 就 可 以 确定 文本 主题 ,然后 通过 话题 中 的 单词 分 布 确定 
文本 中 的 词汇 ,基于 上 面 两 步 过 程 不 断 重复 来 确定 一 篇 文档 中 的 词汇 。 

2) PLSA 模型 的 数学 表示 

PLSA 模型 涉及 3 个 不 同 的 随机 变量 ,分 别 是 文档 Di .话题 Z; 及 词语 W;。 相 关 的 概率 


分 布 有 P(D， 
话题 分 布 , 即 


) 表 示 文 档 在 文档 集中 的 概率 分 布 , 即 文档 D; 被 选中 的 概率 ; P(Zi|Di) 表 示 
在 文档 D; 中 ,话题 Zi 的 分 布 情况 ; PCWi|2i) 表 示 词 汇 分布 , 即 话题 Z 中 词 


汇 Wi 的 分 布 情况 。 从 用 户 角 度 能 观察 到 的 文档 集 为 文档 分 布 及 其 对 应 的 内 容 词 汇 , 因 此 
PLSA 模型 的 数学 表示 为 ， 


根据 PL 
可 以 化 简 为 : 


P(D;,W))= P(D)P(W, | D;) 
= P(D) DP(W; | Di,Z)P(Z, | Di (6-34) 


Zz 
SA 模型 的 假设 ,可 以 知道 词汇 与 所 在 文档 ( 即 文档 分 布 ) 无 关 , 因 此 式 (6-34) 


PCDi,W))= P(D) DPW; | ZDPCZ | Di)) 
Z 
= DP(Z)POD; | Zi)POW, | 2) (6-35) 
了 
即 首 先 选 定 文档 ,然后 选 定 文档 下 的 话题 .最 后 确定 话题 中 的 词汇 来 形成 整 篇 文档 中 的 
图 6-9 表示 。 


文字 ,可 以 用 





用 矩形 表示 量 





图 6-9 说 明了 大 小 为 M 的 文档 集 和 各 文档 中 大 小 为 N 的 词汇 集 的 生成 关系 ,在 图 中 


E 复 过 程 ,图 中 的 灰色 圆圈 表示 最 后 可 见 的 文档 元 素 ,白色 圆圈 表示 不 可 见 的 文 
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档 元 素 , 即 隐形 的 话题 。 在 图 6-9 中 ,D 表示 文档 ,Z 表示 话题 ,W 表示 词语 。 
在 PLSA 模型 中 ,话题 和 单词 的 分 布 满足 多 项 分 
布 。 假 设 所 有 的 文档 中 一 共 包含 有 工 个 话题 ,由 于 文 


档 分 布 概率 是 给 定 的 , 则 文档 产生 模型 一 共 需要 MT+ | 合十 -人 一 个 


























TN 个 参数 的 条 件 概 率 分 布 。 接 下 来 的 问题 就 是 对 这 | ? 2 wa 
些 分 布 进行 估计 ,根据 训练 文本 的 信息 ,产生 能 够 代表 

文本 特征 的 条 件 概 率 分 布 , 即 通过 已 知 的 PCW,|D;) 生 图 6-9 PLSA 的 图 模型 

成 PCDi|Z4) 和 POW |Zi), 进 而 可 以 得 到 文本 集 的 话 

题 分 布 P(2Z)。 


3) PLSA 模型 的 参数 估计 
PLSA 模型 中 未 知 参数 (概率 分 布 ) 求 解 的 一 个 直接 思路 是 通过 极 大 似 然 法 求解 ,可 以 
据 此 写 出 似 然 函数 : 
M N 
ED WY (6-36) 


i=1 j=1 


式 中 ,n(Di,Wiji) 表 示 词 汇 Wj; 在 文档 D; 中 出 现 的 次 数 , 它 是 一 个 关于 P(D;i|2Z4) 和 
PCWj|24) 的 函数 。 把 上 面 的 式 子 取 对 数 , 可 以 改写 成 下 面 的 形式 : 
M N 和 
L= 3) DacD, .wlog( BPWw; | Z)P(Z) PD | 2 ) (6-37) 


这 个 工 的 表达 式 即 为 变形 后 的 极 大 似 然 函数 。 在 上 面 的 似 然 函数 中 ,由 于 未 知 量 在 对 
数 部 分 中 ,难以 直接 求解 。 因 此 采用 下 面 的 EM 算法 进行 该 似 然 函 数 的 求解 。 

EM 算法 (Expectation Maximization) 适 用 于 在 默认 参数 的 情况 下 ( 即 函 数 式 中 存在 隐 
变量 ,具体 表现 为 PLSA 模型 中 的 话题 Z) 进 行 函 数 极 大 似 然 估 计 的 算法 。 对 于 不 包含 隐 变 
量 的 数据 集 可 称 为 完整 数据 (Complete Data), 而 包含 隐 变 量 的 数据 集 称 为 不 完整 数据 
(Incomplete Data)。EM 算法 的 思路 是 通过 求 完 整数 据 对 应 的 函数 期 望 的 极 大 值 为 基础 来 
求 不 完整 数据 对 应 函数 的 最 大 值 。 

EM 算法 包括 下 过程 和 M 过 程 ,其 中 EF 过 程 用 于 求 隐 变 量 在 当前 参数 取 值 下 的 后 验 概 
率 ,通过 Bayes 公式 来 实现 : 

P(Z | Di,W,) PSVPD, | ZY PW; | 24) 
DI PZ) PD | Z)POW; | 20) 
Ze 


在 这 个 步骤 中 ,假设 P(D;|2Z) 和 PCW;|2Z),P(Z) 的 分 布 都 是 已 知 的 ,从 而 可 以 得 到 
P(Zi1D;,W;) 的 值 。 具 体 实现 中 的 变量 变化 情况 将 在 稍 后 进行 详细 的 可 行 性 说 明 。 

M 过 程 则 用 于 最 大 化 完整 数据 对 应 似 然 函数 值 的 期 望 ,计算 在 P(Zi|D;.Wj) 已 知 的 情 
况 下 PCD;|Z4)、P(W;|2Zi) 和 P(Zi) 的 最 大 值 , 在 求 最 值 时 采用 Lagrange 乘 数 法 ,从 而 有 : 





(6-38) 





年 M 车 N 
LAsps) =L+ Da PLPCOD: | 20) —1]+ Dp DLPOW; | 2Z)—1] 
k=l Sl i=l nd 


T 
+v DLPCZ) —1] (6-39) 
k=1 
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N 
DPWi12)=1 
j=1 


M 
s.t.4$ PD;| 2Z)=1 


i=1 

人 
PZ 
k=1 


解 上 面 的 方程 组 ,之 后 就 可 以 得 到 变量 PCDi | Zi)、PCW;|24) 和 P(Zi) 的 分 布 式 : 
M 
Dn CDi, WH)P(Z: | Di, Wi) 
PW;i | 24) = Hn (6-40) 
>) DnDi, WY)PZ | Di,W) 








DnCDi,Wi) PZ | Di,W)) 
P(D:; | Ze) 本 (6-41) 
2) >)n(D Wi) PZ | Di,W,) 








M 
> DnDi,W)P(Z | Di,W)) 


P(Z = 一 -一 (6-42) 


M N 
2) DnCDi, WwW)) 


在 实际 的 EM 算法 实现 中 ,这 是 一 个 迭代 的 过 程 。 在 第 一 轮 的 过 程 中 ,PCDi|24) 和 
PCWj124)、P(Zi) 都 先 取 一 个 随机 值 作为 参数 的 初始 值 ,并 代入 到 第 一 轮 的 过程 里 面 求 
出 在 此 条 件 下 的 后 验 概率 P(Zi| Di;,Wj). 之 后 就 可 以 利用 这 个 值 进行 M 过 程 并 求 出 在 当 
前 后 验 概率 的 情况 下 符合 极 大 似 然 函数 最 大 值 的 PCD;| Zi)、PCWj|24) 和 P(Z4) 的 分 布 。 
重复 玉 过 程 ,把 这 些 分 布 再 代入 到 EE 过 程 的 公式 里 面 继续 求 后 验 概率 ,并 用 新 的 后 验 概率 
进行 M 过 程 ,以 此 类 推 不 停 迭 代 直 到 产生 最 优 解 ,通过 Jensen 不 等 式 可 以 证 明 EM 算法 的 
收敛 性 。 

2. LDA 模型 


PLSA 模型 的 缺陷 在 于 过 拟 合 的 情况 , 即 PLSA 模型 在 训练 的 过 程 中 对 训练 数据 有 非 
常 好 的 拟 合 能 力 , 但 由 于 模型 依赖 训练 数据 生成 参数 ,反而 在 新 的 文本 集中 无 法 表现 出 较 好 
的 特征 拟 合 。 这 个 问题 在 PLSA 模型 大 量 扩大 训练 集 范围 时 可 以 较 好 地 解决 ,不 过 在 文本 
训练 集 容 量 较 小 的 时 候 问题 会 比较 明显 。 

LDA(Latent Dirichlet Allocation) 模 型 用 于 解决 PLSA 模型 中 概率 统计 不 适 于 未 训练 
文档 的 问题 。 在 PLSA 模型 中 .最 后 生成 的 话题 也 是 符合 特定 分 布 的 ,LDA 模型 则 为 文档 
生成 提供 了 概率 化 计算 的 机 制 。 在 PLSA 模型 中 ,不 在 训练 集中 的 文本 是 无 法 确定 其 在 模 
型 中 的 话题 以 及 相关 变量 的 参数 分 布 的 ,而 LDA 模型 可 以 通过 一 个 先 验 假设 做 一 个 概率 
化 计算 的 处 理 。 

LDA 模型 的 思路 是 为 话题 分 布 和 话题 中 对 应 词 项 (注意 这 里 词 项 term 和 词语 word 的 
区 别 ,前 者 是 话题 中 所 能 使 用 的 所 有 词 .集合 中 不 能 重复 ,类似 于 一 个 词典 ,而 后 者 是 文本 中 
实际 使 用 的 词 ,可 以 重复 ,也 可 以 不 使 用 特定 的 词 项 ) 的 分 布设 置 一 个 先 验 分 布 。 由 于 在 
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PLSA 模型 中 ,话题 选择 和 词语 选择 满足 多 项 分 布 . 则 在 LDA 模型 中 ,它们 分 布 的 先 验 分 布 
符合 多 项 分 布 的 共 办 e 分 布 一 一 Dirichlet 分 布 。 

LDA 模型 的 文本 生成 过 程 ,首先 确定 话题 分 布 的 先 验 Dirichlet 分 布 , 随 之 确定 话题 分 
布 ,根据 这 个 话题 分 布 确定 当前 词 的 所 属 话题 ; 之 后 根据 该 话题 词 项 分 布 的 先 验 分 布 确定 
词 项 分 布 ,与 话题 分 布 结合 选取 使 用 的 词汇 。 重 复 上 述 过 程 最 后 生成 完整 的 一 篇 文本 。 

在 这 个 过 程 中 ,词汇 分 布 和 话题 分 布 都 是 一 种 多 项 分 布 ,一 般 的 多 项 分 布 描述 一 个 k 维 
随机 变量 在 不 同 取 值 下 的 概率 ,进行 N 次 实验 。 而 LDA 中 使 用 的 多 项 分 布 是 一 种 简化 的 
多 项 分 布 ,该 & 维 随机 变量 中 只 有 一 个 值 为 1, 而 其 余 的 值 均 为 0。 

Dirichlet 分 布 是 多 项 分 布 的 共 轿 分 布 , 可 以 用 下 式 形 式 化 表示 为 : 

K 
r( Da) K 


DB I) = [pe (6-43) 








其 中 ,T(a) = [ea 为 Gamma 函数 ,在 LDA 模型 中 Dirichlet 分 布 可 以 写成 下 面 的 形 
式 : 





kK 

和 1 

DO 12) = Oe (6-44) 
la 二 


K 
式 中 ,A(2) = | Te- di 
LDA 模型 的 概率 图 如 图 6-10 所 示 。 

















图 6-10 ”LDA 模型 的 概率 图 


图 6-10 中 包含 了 大 小 为 DD 的 文档 集 、 各 文档 中 大 小 为 N 的 词汇 集 与 大 小 为 K 的 话题 
集 之 间 的 生成 关系 ,在 图 中 用 和 矩形 表示 重复 过 程 ,图 中 的 灰色 圆圈 表示 最 后 可 见 的 文档 元 
素 , 白 色 圆 圈 表 示 不 可 见 的 文档 元 素 , 即 隐 变 量 。 在 图 6-10 中 ,a 表示 话题 分 布 04 的 先 验 分 
布 (Dirichlet 分 布 的 控制 参数 ) ,7 表示 话题 & 中 词 项 分 布 B 的 先 验 分 布 ,Za., 表 示 文 档 d 中 
词语 n 的 所 属 话题 ,Wa., 即 对 应 的 词语 。 

LDA 模型 所 表达 的 话题 和 PLSA 所 表达 的 话题 可 以 通过 图 6-11 进行 形象 化 表示 ,图 
中 显示 了 3 个 词汇 空间 上 的 3 个 话题 ,LDA 给 出 了 话题 的 平滑 分 布 .PLSA 则 是 将 话题 表 
示 为 经 验 分 布 ,混合 unigram 则 得 到 的 话题 对 应 于 话题 空间 的 顶点 。 可 以 认为 LDA 模型 
给 出 了 话题 的 一 种 函数 式 描述 .也 可 以 用 函数 的 参数 来 限定 ,因此 提升 了 话题 的 推理 能 力 。 

在 LDA 模型 中 ,话题 和 词 项 的 分 布 都 是 隐 变 量 , 从 外 部 可 见 的 隐 变 量 即 为 .8 这 两 个 
先 验 分 布 的 变量 ,从 而 可 以 通过 调整 先 验 分 布 变量 来 调整 话题 和 词 项 的 分 布 情 况 。LDA 模 
型 给 予 了 话题 分 布 在 文档 层面 的 概率 分 布 .PLSA 模型 中 特定 的 话题 分 布 在 LDA 模型 中 变 
为 未 知 , 且 外 部 参数 与 文本 特征 无 关 , 解 决 了 PLSA 模型 的 过 拟 合 问题 。 

LDA 模型 的 定义 式 为 (其 中 B68 表示 和 矩阵 ): 
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word1 






混合 unigram 


Topics in LDA 





word3 word2 
图 6-11 LDA .PLSA 中 的 话题 关系 示意 图 
POWa,Z4,04.8 | a.D) 
N 
= [PC | Ba PZan | Oa)P(04 | a)P(B DD) (6-45) 
词语 选择 词 项 1 的 概率 为 : 
天 
POWan =1104,B8) = DPWa,, =1 | BOP(Zs,, = | 0) (6-46) 
LDA 模型 中 的 参数 即 关 于 a.8 的 参数 ,一 共有 十 NK 个 。 关 于 a 的 参数 可 以 表示 成 
P(9la) , 即 在 参数 a 情况 下 文档 选择 话题 概率 分 布 为 0 的 概率 。 关 于 8 的 参数 为 在 参数 
情况 下 的 词 项 分 布 , 即 话题 Z 中 选择 词语 N 的 概率 .表示 为 P(W12Z,B)。 在 这 里 ,P(0|a) 是 
一 个 向 量 ,P(W12Z,B) 是 一 个 矩阵 。 
对 于 这 两 组 参数 估计 的 一 个 思路 是 同样 使 用 EM 算法 ,在 算法 的 第 一 步 人 为 给 出 一 个 
a\B 的 分 布 ,然后 进行 过程 -M 过 程 的 反复 迭代 ,估计 这 两 组 参数 进而 得 到 最 优 解 。 设 似 
然 函 数 为 ; 
La,B) = logp (Wa | a,B) (6-47) 
可 一 1 
在 下 过 程 中 首先 需要 求 关于 0 和 Z 的 后 验 概率 , 则 有 : 
PE(b) 交 | 项 ,a 且 一 了 22 | 有 (6-48) 
P(W | a,8) 
这 个 后 验 概率 很 难 计算 ,因为 其 中 包括 9 和 Z 这 两 个 隐 变 量 , 在 最 优化 的 求 偏 导 步骤 也 
无 法 消去 这 两 个 隐 变 量 。 在 LDA 的 原始 论文 中 考虑 采用 变 分 法 ,用 另外 的 分 布 Q 代替 原 
概率 分 布 P 来 拟 合 包含 隐 变 量 的 似 然 函 数 和 后 验 概率 分 布 
情况 。 9 
定义 下 面 的 使 9 和 Z 之 间 独 立 的 近似 拟 合 模型 ,对 应 概率 生 
成 图 如 图 6-12 所 示 。 然 后 有 基于 该 模型 的 分 布 Q: 











0 z 
Eh 








N 
QZ 17y,9) =QO1p)TTIaQacz,lw) (6-49) 
n=1 
定义 分 布 P.Q 之 间 的 距离 : 


图 6-12 LDA 的 近似 模型 
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DQ(G,Z | y,9) || PC(0,Z | 万 ,ap)) 





= | DQe0.21y.plog Dw (6-50) 
= 0,2 | 人 W,a,B) 
对 于 似 然 函 数 ee 
logp (Wa | a.p) > E[logP(9.2,W | a,8)] — ELlogQ(0,2)] (6-51) 


定义 L(y,gwasB) 二 E[logP(9.Z, 玉 |a,8)] 一 E[logQ(0.Z)], 则 有 : 


logp(W | wp) —L(y,gsaB) = D(Q(OGZ | y,9) || P(0,Z |W,asB)) (6-52) 
这 样 关于 似 然 函 数 的 原 问 题 就 转化 为 最 大 化 L(Y,q,asB), 对 L(Y,p,asB) 则 可 以 通过 
Lagrange 乘 数 法 求 出 分 布 Q 中 隐 变 量 y、p 的 值 : 


N 
Gr cc Bae, es, yi = i+ D3 (6-53) 


上 述 过 程 为 E 过 程 的 具体 内 容 , 在 M 过 程 中 ,对 L(Y,gwa,B) 最 大 化 求 a.8。 即 LDA 模 
型 的 EM 算法 参数 估计 在 EE 过程 中 求 Y.qy, 在 M 过 程 中 求 a、B, 直 到 得 到 收敛 结果 ,此 时 训 
练 出 的 K\8 即 为 模型 的 估计 参数 。 

在 M 过 程 中 ,对 于 参数 8 同样 可 以 通过 工 (y,p,ae,B) 上 的 Lagrange 乘 数 法 来 求解 ,首先 
把 L(y,g,a,B) 化 简 成 只 4 留 下 关于 参数 的 形式 ， 从 而 有 : 


Ls= pp2D3 p27 tog, + Sa,( Dp, —1) (6-54) 
ES yp, =1 
解 得 : By 2) Ppa Wh 


可 一 1 n=]1 

对 于 参数 ,同样 将 L(Y,p,ac*B) 化 简 为 只 有 关于 ve 的 形式 ,由 于 a 是 Dirichlet 分 布 的 参 
数 ,故此 时 L(y,g,a.B) 不 存在 约 东 条件 ,因此 在 对 其 求 偏 导数 之 后 用 Newton 迭代 法 求解 
式 子 中 a 的 所 有 解 , 即 为 a 关于 各 个 话题 的 分 布 的 参数 。 

LDA 参数 估计 的 另 一 个 常用 方法 是 Gibbs Sampling 方法 。Gibbs Sampling 的 主要 思 
路 是 首先 随机 为 文本 中 的 单词 分 配 话题 ,之 后 统计 每 个 话题 下 面 出 现 的 词 项 数量 和 每 篇 文 
档 下 的 话题 数量 。 然 后 对 于 每 个 词汇 ,计算 文档 在 不 含 当前 为 它 分配 的 话题 的 情况 下 ,根据 
其 他 词汇 的 话题 分 布 计算 当前 词汇 的 话题 分 布 ,为 当前 词汇 分 配 一 个 新 的 话题 。 这 个 过 程 
就 是 采样 过 程 ,每 一 轮 的 采样 过 程 对 每 个 单词 都 进行 一 次 采样 ,更 新 其 话题 分 配 。 采 样 过 程 
也 是 收敛 的 , 当 0 和 Bs 收敛 时 ,停止 采样 过 程 。Gibbs Sampling 的 流程 如 图 6-13 所 示 。 


Input 


Initialize [20° nt|2) a) 
nitia Count Compute < | A le 
w w mz|m) w 


Loop 





图 6-13 LDA 的 Gibbs Sampling 流程 
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在 这 里 P( 二 一 A| 达 志 ) 中 的 z-; 表 示 去 除 话题 i 之 后 的 话题 集合 ,这 个 概率 就 是 为 文 
档 d 中 的 词汇 w 在 去 除 话题 i 的 情况 下 重新 分 配 所 属 话题 。 对 于 这 个 概率 分 布 ,有 : 
二 二 让 || 营 - 司 六 中 + ns 十 wx (6_55) 
Dn 二 op ( Fn +a) 幸 ] 
式 中 ,n 表示 在 训练 数据 集中 词 项 : 被 观察 到 被 分 配 到 话题 > 的 次 数 ,nw 表示 话题 & 被 
分 配给 文档 mx 中 词汇 的 次 数 。 这 个 式 子 可 以 根据 LDA 模型 联合 概率 的 变换 形式 得 出 : 
P(B,E Ia)= P(VIE,DPE | 2) 
和 AC 守 十 记 了 AGin 十 如) 
U A(7) mi ACT) 
基于 上 面 的 PC 一 Al 二 :已 ) 概 率 分 布 , 就 可 以 在 Gibbs Sampling 过 程 收敛 时 得 出 04 
和 Bs 这 两 个 中 间 分 布 , 即 LDA 模型 中 需要 估计 的 表示 文档 生成 过 程 的 参数 。 在 式 (6-56) 
的 推导 过 程 中 得 到 的 关于 话题 分 布 和 词 项 分 布 的 后 验 分 布 为 ; 


Nm 
PZ | 0 PO, 12 = DirCg。 | jt+a) (6-57) 
0 














(6-56) 





P(B | 元 , 基 汪 ) = 二 [Pw | PCB | 让 二 Dir(Br | 讽 十 了 ) (6-58) 
A Bi =k 


进而 有 : 

nt 十 va 

Br = (6-59) 
Dn 十 六 
t=] 

《0 

CM (6-60) 
Dn® +an 
k=1 


上 述 过 程 即 为 LDA 模型 的 参数 估计 与 模型 训练 的 过 程 。 对 于 一 个 不 在 原 训练 文档 集 
中 的 新 文档 ,同样 通过 Gibbs Sampling 的 过 程 进行 学 习 , 在 这 个 过 程 中 可 以 认为 B 由 训练 
语 料 得 出 , 故 分 布 不 变 , 采 样 过 程 完成 后 更 新 话题 分 布 bs 即 可 。 


6.5 分 类 技术 


6.5.1 分 类 技术 概要 


在 大 数据 分 类 中 ,所 针对 的 都 是 某 种 特定 的 数据 类 型 ,它们 分 类 方法 基本 类 似 。 这 里 以 
文本 分 类 为 例 来 介绍 。 文 本 分 类 有 两 种 方法 ,基于 规则 的 方法 和 基于 机 器 学 习 的 方法 。 基 
于 规则 的 方法 ,是 采用 语言 学 的 知识 对 文本 进行 分 析 后 ,人 工 定义 一 系列 启发 式 规 则 ,用 于 
文本 分 类 ; 基于 机 器 学 习 的 方法 对 文本 进行 特征 提取 ,然后 采用 分 类 器 进行 分 类 。 目 前 的 
主流 研究 方法 是 采用 基于 机 器 学 习 的 方法 。 

在 分 类 中 涉及 的 概念 有 分 类 器 ,训练 .训练 样本 、 测 试 样本 等 。 

分 类 器 是 对 数据 挖掘 中 对 样本 进行 分 类 的 总 称 ,分 类 的 概念 为 在 训练 数据 的 基础 上 学 
会 一 个 数学 函数 或 数学 模型 ,而 这 个 数学 函数 或 数学 模型 就 是 分 类 器 。 
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训练 是 指 对 模型 的 参数 进行 优化 ,选取 最 优 的 模型 参数 使 得 算法 能 够 建立 具有 很 好 泛 
化 能 力 的 模型 ,也 就 是 建立 能 够 准确 地 预测 未 知 样本 类 别 的 模型 。 

训练 样本 是 由 类 别 已 知 的 样本 组 成 的 ,用 于 模型 的 训练 。 

测试 样本 是 由 类 别 未 知 的 样本 组 成 的 ,用 于 测试 模型 的 性 能 。 

一 个 文本 分 类 的 基本 流程 如 图 6-14 所 示 。 








3 














i 类 | 六 | 全 FE 舍 指 
训练 类 试 评估 上 评估 指 
Es 牟 瞩 4 区 访 测试 评 人 标 
理 征 示 
































图 6-14 文本 分 类 的 基本 流程 


基于 该 流程 ,文本 分 类 的 基本 过 程 如 下 。 

(1) 文本 预 处 理 : 处 理 文本 信息 的 最 初步 又 ,包括 分 词 (中 文 切 词 ) .去除 停 用 词 . 词 形 
规范 化 。 

(2) 文本 表示 : 文本 内 容 在 计算 机 中 的 表示 方法 ,主要 有 空间 向 量 模型 .布尔 模型 、 概 

(3) 特征 选择 和 特征 提取 : 文档 表示 成 计算 机 能 理解 的 形式 后 ,由 于 高 维特 征 的 宛 余 
和 噪声 ,会 严重 影响 分 类 的 准确 性 ,不 能 直接 用 于 训练 分 类 器 。 所 以 要 从 向 量 空间 中 抽取 最 
有 效 的 ,最 具 代表 性 的 词汇 作为 文档 的 特征 向 量 。 

(4) 训练 分 类 器 : 运用 目前 流行 的 分 类 方法 (如 贝 叶 斯 ` 最 近邻 居 、 支 持 向 量 机 、 决 策 
树 、 神 经 网 络 等 ) 进 行 分 类 。 

(5) 分 类 结果 评价 : 为 了 判断 分 类 器 的 好 坏 , 必 须 有 衡量 分 类 器 性 能 的 指标 ,如 准确 
率 、 召 回 率 \F 值 等 。 


6.5.2 经 典 的 分 类 技术 


本 节 以 文本 分 类 为 背景 介绍 经 典 的 分 类 方法 ,当然 这 些 分 类 方法 并 不 局 限于 文本 分 类 
领域 。 文 本 分 类 应 该 是 最 常见 的 文本 语义 分 析 任 务 了 。 对 一 个 类 目标 签 达 几 百 个 的 文本 分 
类 任务 ,90% 以 上 的 准确 率 、 召 回 率 依旧 是 一 个 很 困难 的 事情 。 这 里 说 的 文本 分 类 ,是 指 泛 
文本 分 类 ,包括 Query 分 类 广告 分 类 .Page 分 类 、 用 户 分 类 等 ,因为 即使 是 用 户 分 类 ,实际 
上 也 是 对 用 户 所 属 的 文本 标签 、 用 户 访 问 的 文本 网 页 做 分 类 。 

以 下 介绍 朴素 贝 叶 斯 (Naive Bayes) 分 类 、 最 近邻 居 (KNN) 分 类 ,支持 向 量 机 (SVM) 分 
类 ,同时 介绍 分 类 模型 的 性 能 评估 方法 。 

1. 朴素 贝 叶 斯 (Naive Bayes) 分 类 

朴素 贝 叶 斯 分 类 是 基于 贝 叶 斯 定理 的 一 种 分 类 算法 。 贝 叶 斯 定理 就 是 已 知 某 条 件 概 
率 ,如 何 得 到 两 个 事件 交换 后 的 概率 ,就 是 已 知 P(A|B) 如 何 得 到 P(B|A), 即 : 
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_ P(A | B)P(B) 


P(B|A)= Ay (6-61) 


在 贝 叶 斯 分 类 中 ,假设 训练 样本 集 为 M 类 , 记 为 C 二 {a ,cs，…,cm) ,每 类 的 先 验 概率 为 
Plci),c 二 1,2,…,M, 当 样本 集 非 常 大 时 ,可 以 认为 : 
Psiy= < (6-62) 
对 于 一 个 样本 z, 将 其 归 为 类 ci 的 类 条 件 概率 为 PCzlci), 则 根据 贝 叶 斯 定理 ,可 得 ci 
类 的 后 验 概率 P (ci|z) 
Plz | cy) P(e) 


Plci | z) = PO) < "= 2 M (6-63) 
Plci) 可 以 从 数据 中 获得 ,如 果 文 档 集合 D 中 ,属于 ci 的 样 例 数 为 n;, 则 
一 有 
P(e) = TT (6-64) 


假设 x 可 以 表示 为 特征 集合 {wi ,ws，… ,tw) ,tl 为 特征 的 个 数 , 如 果 特 征 之 间 存 在 关 
联 , 则 需要 估计 大 量 的 概率 值 ,如 果 特 征 之 间 相 互 独立 , 则 只 需要 每 个 特征 和 每 个 类 别 
Plwj|ci)。 在 朴素 贝 叶 斯 分 类 中 假设 各 个 特征 之 间 相 互 独立 ,因此 有 : 

P(z | cb) 一 Pw ,rw | ci) 
= [[PCw; | ci) (6-65) 

最 后 ,最 大 后 验 概率 判定 准则 来 选择 样本 的 类 别 标签 ,如 果 P(eci|x) 二 maxjP (cj|xz)， 
i 二 1,2,…,M,j==1,2,…,M, 则 zx 属于 c; 类 。 

除 此 以 外 ,还 可 以 考虑 其 他 的 决策 方式 ,如 基于 最 小 风险 的 贝 叶 斯 决策 ,如 果 考 虑 不 同 
错 分 情况 下 有 不 同 的 风险 ,并 使 错 分 的 风险 最 小 , 则 此 时 的 贝 叶 斯 决策 成 为 基于 最 小 风险 的 
贝 叶 斯 决策 。 

最 小 最 大 贝 叶 斯 决策 就 是 考虑 在 P(ci) 变 换 的 情况 下 ,如何 使 得 最 大 可 能 的 风险 最 小 ， 
也 就 是 在 最 差 的 条 件 下 争取 最 好 的 结果 。 

在 实际 应 用 中 , 贝 叶 斯 方法 的 类 别 总 体 的 概率 分 布 和 各 类 样本 的 概率 分 布 函 数 常常 是 
未 知 的 ,所 以 要 求 样本 足够 大 。 同 时 为 了 方便 计算 ,在 实际 应 用 中 多 为 朴素 贝 叶 斯 分 类 。 

2. 最 近邻 居 (KNN) 分 类 

KNN 算法 的 思想 比较 简单 , 即 如 果 一 个 样本 (向 量 ) 在 特征 空间 中 的 KK 个 最 近邻 样本 
(向 量 ) 中 的 大 多 数 属于 某 一 个 类 别 . 则 该 样本 (向 量 ) 也 属于 这 个 类 别 。 对 文本 分 类 而 言 ,在 
给 定 新 文本 后 ,考虑 在 训练 文本 集中 与 该 新 文本 距离 最 近 的 K 篇 文本 ,根据 这 天 篇 文本 所 
属 的 类 别 判断 新 文本 所 属 类 别 。 

KNN 分 类 的 示意 图 如 图 6-15 所 示 , 显 示 了 一 个 二 
维 词汇 空间 上 的 分 类 方法 , 当 K==1 时 ,最 近 的 邻居 样本 
都 是 属于 A 类 ,因此 将 该 文本 标志 为 A 类 ; 而 当 开 =9 


o 4 类 
S B 类 





时 ,最 近邻 居中 属于 B 类 的 个 数 更 多 ,因此 将 该 新 文本 分 A=1.4 类 
K=9,8 类 
为 卫 类 。 
KNN 分 类 算法 具体 的 步骤 描述 如 下 。 


(1) 根据 特征 项 集合 重新 描述 训练 文本 向 量 。 图 6-15 KNN 分 类 的 示意 图 
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(2) 在 新 文本 到 达 后 ,根据 特征 词 分 词 新 文本 ,确定 新 文本 的 向 量 表示 。 
(3) 在 训练 文本 集中 选 出 与 之 最 相似 的 天 个 文本 。 
文本 间 的 距离 可 以 采用 夹 角 余 弦 计 算 : 





n 
> TU 2k 
k=1 


Sim(Di,D:) = cos0 = 5- (6-66) 
A 2 > 
K 值 的 计算 目前 没有 很 好 的 办 法 ,一 般 采 用 先 定 一 个 初始 值 ,然后 根据 实验 测试 结果 
调整 KK 值 ,一 般 可 根据 样本 规模 将 初始 值 设 定 为 几 十 到 几 百 之 间 。 
(4) 在 新 文本 的 邻居 中 ,以 此 计算 每 类 的 权重 : 








bz,C) = >) Sim(zr,di)y(di,C)) (6-67) 
adEKNN 
1， di€CG 
yldi,C;) -1 (6-68) 
0, di¢O 


其 中 ,xz 为 新 文本 的 类 别 向 量 ,y 为 类 别 属性 函数 ,表示 如 果 d 属于 类 别 C, 则 函数 值 为 1, 否 
则 为 0。 然 后 比较 类 别 的 权重 ,将 文本 分 到 权重 最 大 的 类 别 中 。 

KNN 方法 与 Naive Bayes 方法 相 比 ,是 一 个 次 优 的 方法 ,因为 它 采 用 后 验 概率 的 估 值 
作为 后 验 概率 。 理 论 上 , 它 的 错误 概率 的 界限 是 Naive Bayes 的 两 倍 , 但 实际 应 用 中 ,由 于 
Bayes 方法 的 条 件 很 难 满足 ,因此 KNN 的 效果 反而 比 Bayes 方法 好 一 些 。 

KNN 方法 的 不 足 之 处 是 计算 量 大 ,因为 对 每 一 个 待 分 类 的 文本 ,都 要 计算 它 到 全 体 已 
知 样本 的 距离 ,才能 求 得 它 的 K 个 最 近邻 点 。 常 用 的 减少 计算 量 的 方法 如 下 。 

(1) 事先 对 已 知 样本 点 进行 剪 枝 , 去 除 对 分 类 作用 不 大 的 样本 。 

(2) 利用 空间 换 时 间 的 方法 .事先 将 所 有 样本 点 的 两 两 距离 计算 出 来 并 存 人 相应 的 位 
置 以 备 索引 。 

第 一 种 方法 容易 产生 新 的 误差 ,第 二 种 方法 将 占用 过 多 的 存储 空间 。 

3. 支持 向 量 机 (SVMD) 分 类 

支持 向 量 机 (Support Vector Machine,SVM) 是 建立 在 统计 学 习 理 论 的 VC 维 理论 和 
结构 风险 最 小 原理 上 的 ,根据 有 限 的 样本 信息 在 模型 的 复杂 性 和 学 习 能 力 之 间 寻 求 最 佳 折 
中 ,以 期 望 获得 最 好 的 推广 能 力 。 其 中 VC 维 是 对 函数 类 的 一 种 度量 , VC 维 越 高 ,一 个 问 
题 就 越 复 杂 。 结 构 风险 其 实 就 是 假设 的 模型 与 真实 模型 之 间 的 误差 。 

在 设计 分 类 器 时 ,经 常会 出 现 这 样 的 现象 , 即 对 一 个 给 定 的 样本 集 而 言 , 有 时 用 非常 简 
单 的 分 类 器 进行 分 类 ,效果 反而 比 用 复杂 算法 好 ,这 种 现象 是 过 学 习 问题 , 即 某 些 情况 下 , 训 
练 误差 过 小 反而 会 导致 推广 能 力 下 降 。 这 就 是 分 类 器 选取 了 一 个 足够 复杂 的 分 类 函数 (VC 
维 很 高 ) ,能 够 精确 地 记 住 每 一 个 样本 .但 其 泛 化 能 力 (推广 能 力 ) 很 差 ,除了 样本 中 的 数据 ， 
其 他 数据 都 分 类 错误 ,而 SVM 就 是 期 望 获得 最 优 推广 能 力 的 方法 。 图 6-16 展示 了 一 个 线 
性 分 类 器 在 处 理 复 杂 样 本 分 类 时 的 推广 能 力 , 得 到 更 高 的 分 类 准确 性 。 

假设 给 定 训练 样本 {(ziyh)，…， (ziyy) (zeyye)) zcERoyE( 十 1, 一 1) 一 1， 
2,…,n, 要 寻找 一 个 分 类 规则 I(x) .使 它 能 对 未 知 类 别 的 新 样本 作 尽 可 能 正确 的 划分 。 可 
以 用 一 个 线性 判别 函数 来 做 一 个 介绍 : 
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(d) 
图 6-16 分 类 器 的 比较 


g(7) = wz + wo 


假设 这 是 一 个 二 维 空间 中 仅 有 两 类 样本 的 分 类 问题 ,其 中 C! 和 C* 是 要 


(6-69) 
区 分 的 两 个 类 





别 , 中 间 的 一 条 直线 是 分 类 函数 。 线 性 函数 就 是 在 一 维 空间 中 的 一 个 点 ,二 维 空间 中 的 一 条 


线 ,三 维 空间 中 的 一 个 平面 ,它们 统称 为 超 平面 ,如 图 6-17 所 示 。 
对 于 一 个 两 类 问题 ,决策 规则 为 : 


如 果 g(Cz) 二 0, 则 判定 二 属于 Cs; SR 
如 果 g(x) 过 0, 则 判定 zx 属于 C1; WR o 
如 果 g (xz) 二 0, 则 可 以 将 分 为 任意 一 类 或 者 拒绝 判定 。 < > 

并 且 称 公 式 中 的 多 为 支持 向 量 , 就 是 需要 的 特征 样本 。 > 

上 面 是 一 个 线性 可 分 的 示例 ,而 如 果 在 二 维 平 面 中 是 线性 不 可 图 6-17 分 类 面 


分 的 。 


如 图 6-18 所 示 , 实 线 为 类 别 a, 虚 线 为 类 别 b, 这 样 就 不 能 找到 一 个 线性 函数 将 其 分 为 
两 类 。 因 为 二 维 空间 中 线性 函数 为 直线 ,所 以 不 存在 符合 的 线性 函数 。 但 可 以 用 一 条 曲线 


将 其 分 类 ,如 图 6-19 所 示 。 











a 


wy 


图 6-19 非 线 性 分 类 








图 6-18 线性 不 可 分 


假设 该 曲线 函数 为 : 
g(z) = cortesr’ 


然后 建立 两 个 向 量 y 和 a: 


(6-70) 
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这 样 就 可 以 将 g(z) 转 化 为 F(y) 王 一 ay , 即 g(x)=f(y)=ay。 

解决 线性 不 可 分 问题 的 关键 在 于 找到 z~y 的 映射 方法 ,这 种 方法 在 SVM 中 称 为 核 函 
数 。 核 函数 的 作用 是 接受 两 个 低 维 空间 中 的 向 量 , 能 够 计算 出 经 过 某 个 变换 后 再 高 维 空间 
中 的 向 量 内 积 值 。 常 用 的 核 函 数 有 线性 核 函 数 、 多 项 式 核 函 数 、 径 向 基 核 函数 、Sigmoid 核 
函数 和 复合 核 函 数 。 而 在 文本 分 类 中 .常用 的 核 函 数 为 线性 核 函 数 , 但 目前 核 函数 选择 没有 
指导 原则 , 某 些 问题 选用 某 个 核 函 数 会 效果 很 好 ,而 另 一 些 则 很 差 。 

SVM 方法 中 , 非 线性 映射 是 SVM 方法 的 理论 基础 ,SVM 利用 内 积 核 函数 代替 向 高 维 
空间 的 非 线 性 映射 。 而 SVM 方法 的 目标 是 对 特征 空间 划分 找到 其 最 优 超 平面 ,其 核心 思 
想 是 最 大 化 分 类 边际 。 支 持 向 量 是 SVM 的 训练 结果 ,在 SVM 分 类 决策 中 起 决定 作用 的 是 
支持 向 量 。 

SVM 在 应 对 多 类 情况 下 ,常用 的 方法 是 将 KK 类 问题 转化 为 K 个 两 类 问题 ,其 中 第 i 个 
问题 是 用 线性 判别 函数 把 属于 C; 类 与 不 属于 C; 类 的 点 分 开 。 更 复杂 的 方法 是 利用 


全 全 一 二 个 线性 判别 函数 ,把 样本 分 为 K 个 类 别 ,每 个 线性 判别 函数 只 对 其 中 的 两 个 类 别 


分 类 。 

SVM 的 最 终 决 策 函 数 只 由 少数 的 支持 向 量 所 确定 ,计算 的 复杂 性 取决 于 支持 向 量 的 数 
目 , 而 不 是 样本 空间 的 维 数 ,这 在 某 种 意义 上 避免 了 “ 维 数 灾难 ”。 并 且 ,少数 支 持 向 量 决定 
了 最 终结 果 , 这 不 但 可 以 帮助 人 们 抓 住 关 键 样本 “剔除 ”大量 元 余 样 本 ,而 且 注定 了 该 方法 
不 但 算法 简单 ,而 且 具 有 较 好 的 鲁 棒 性 。 

4. 分 类 模型 的 性 能 评估 

现 有 多 种 分 类 器 和 分 类 算法 ,在 实际 应 用 中 怎么 选择 合适 的 模型 和 算法 呢 ? 这 就 需要 
有 一 种 评估 分 类 性 能 的 指标 ,通过 比较 这 些 指 标的 大 小 来 判断 分 类 器 的 好 坏 。 

首先 介绍 混淆 矩阵 (Confusion Matrix) 的 概念 , 它 是 用 于 统计 分 类 结果 的 矩阵 ,也 称 为 
二 分 类 的 列 联 表 。 和 矩阵 的 形式 如 表 6-4 所 示 , 其 中 总 的 测试 样本 2 一 十 2 十 c 十 qd 。 











表 6-4 混淆 矩阵 

真实 类 别 为 正 例 真实 类 别 为 负 例 
算法 判断 为 正 例 a b 
算法 判断 为 负 例 < d 








基于 这 个 表 中 的 统计 信息 ,定义 两 个 分 类 性 能 指标 , 即 查 全 率 (召回 率 , Recall, 简 记 为 
r) 和 查 准 率 ( 准 确 率 ,Precision, 简 记 为 p) ,计算 方法 分 别 为 : 


a 


Tatec 





(6-71) 


p= 二 (6-72) 
显然 在 评价 性 能 时 ,r、p 值 必须 成 对 出 现 ,否则 就 会 得 到 片面 的 结论 。 基 于 p 和 值 定 
义 一 个 新 的 指标 Fi ,这 样 在 比较 性 能 时 更 方便 。 


= 2pr 
p+r 


Fi 实际 上 是 一 般 化 指标 Fa.8 二 1 时 的 结果 。 下 的 值 越 大 ,分 类 算法 的 性 能 就 越 好 。 





(6-73) 
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对 于 分 类 系统 来 说 ,评价 其 分 类 性 能 时 ,需要 对 每 个 类 别 计算 对 应 的 p、r、Fi 值 , 即 把 
当前 类 别 当 作 正 例 ,其 他 的 类 别 当 作 反 例 ,统计 得 到 混 光 矩阵 ,再 按照 公式 计算 结果 值 。 对 
于 类 别 比较 多 的 分 类 问题 ,需要 有 较 多 的 指标 ,为 了 更 好 地 进行 评价 ,引入 宏 平 均 和 微 平均 。 

(1) 宏 平 均 : 将 某 个 类 看 作 正 例 ,其 他 类 别 看 作 负 例 ,每 个 类 都 这 样 处 理 后 可 以 得 到 多 
个 混淆 矩阵 ,再 统计 每 个 类 别 的 +、p 值 .然后 对 所 有 的 类 求 +、p 的 平均 值 ,分 别称 为 宏观 查 
全 率 、 宏 观 查 准 率 和 宏观 刻 。 即 : 





Macro_ = (6-74) 
Dp 
Macro_p = -TcT (6-75) 
Fy 
Macro 下; 一 A (6-76) 


或 
2 X Macro r X Macro pp 
Macro_r+ Macrop 





Macro_F! 
式 中 ,|C| 表 示 分 类 系统 的 类 别 数 。 
(2) 微 平均 : 先 建立 一 个 全 局 列 联 表 , 即 对 数据 集中 的 每 一 个 样本 不 分 类 别 进行 统计 
建立 全 局 混淆 矩阵 ,然后 根据 这 个 全 局 混淆 矩阵 进行 计算 , 即 


(6-77) 





Da 
Micror = - (6-78) 
> ai 十 > 
bp 
Micro_p = - (6-79) 
> ai 十 b 
Micro_F, = 2X Micro r X Micro 力 (6-80) 


Micro r+ Micro_p 
除了 基于 查 全 率 和 查 准 率 的 这 一 系列 指标 外 ,还 有 ROC、ROC-p 等 衡量 分 类 算法 性 能 
的 指标 。 这 些 分 类 性 能 指标 的 选择 和 运用 ,应 当 根 据 具体 的 分 类 问题 ,如 对 于 非 平 衡 分 类 情 
况 , 可 能 会 更 加 关注 少数 类 的 分 类 效果 。 


6.6 聚 类 技术 


聚 类 方法 目的 在 于 对 数据 集 寻找 一 种 合适 的 划分 ,将 数据 点 划分 为 有 限 的 类 别 , 而 这 种 
类 别 标签 并 非 事 先 预 知 的 。 聚 类 分 析 在 很 多 领域 得 到 应 用 ,如 模式 识别 、 数 据 分 析 、 图 像 处 
理 \ 文 档 处 理 、 客 户 分 割 等 。 在 商业 上 , 聚 类 可 以 帮助 市 场 分 析 人 员 从 消费 者 数据 库 中 区 分 
出 不 同 的 消费 群体 来 ,并 且 概 括 出 每 一 类 消费 者 的 消费 模式 或 者 习惯 。 

聚 类 算法 有 很 多 ,归纳 起 来 主要 有 五 类 , 即 基 于 划分 的 聚 类 方法 .层次 聚 类 方法 .基于 密 
度 的 聚 类 方法 .基于 网 格 的 方法 及 基于 模型 的 聚 类 方法 。 

这 里 介绍 两 种 经 典 的 聚 类 算法 . 即 K-means 和 DBSCAN。 

K-means 是 属于 基于 划分 的 聚 类 方法 .该 算法 由 于 简单 .高 效 、 易 实施 等 优点 ,在 很 多 领 
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域 的 数据 聚 类 时 被 广泛 应 用 ,也 有 大 量 的 研究 针对 该 算法 所 存在 的 问题 进行 各 种 改进 。 

K-means 算法 中 的 KK 是 指 想 要 把 数据 聚 成 的 类 数 ,是 一 个 用 户 提供 的 参数 , 即 把 ?个 
数据 对 象 分 成 K 个 徐 。 和 其 他 聚 类 算法 一 样 ,划分 的 结果 要 求 复 内 具有 较 高 的 整体 相似 
度 ,而 得 与 答 之 间 的 相似 度 较 低 。 

K-means 算法 的 基本 流程 如 下 。 

输入 : 包含 nn 个 对 象 的 数据 集 D= 二 (di, ds，,…,d,) 、 徐 的 个 数 KK。 

处 理 步骤 如 下 。 

(1) 任意 选择 KK 个 对 象 作 为 初始 的 类 中 心 ,类 中 心 是 一 个 类 的 代表 。 

(2) 计算 每 个 对 象 与 K 个 中 心 之 间 的 距离 ,将 每 个 对 象 分 配 到 离 它 最 近 的 类 中 心 , 即 
设 定 该 对 象 的 类 别 标签。 

(3) 更 新 每 个 类 的 中 心 , 即 计算 每 个 类 中 所 有 对 象 的 各 个 属性 值 的 平均 值 。 

(4) 重复 步骤 (2)、(3) ,直到 对 象 的 归属 类 别 不 再 发 生变 化 ,或 整体 的 平方 误差 小 于 某 
个 允许 的 值 为 止 。 

平方 误差 是 指 前 后 两 次 聚 类 的 整体 距离 ,针对 某 聚 类 的 整体 距离 计算 方法 如 下 : 

天 
E= 2)>) |d 一 cr (6-81) 


i=1 deC, 

式 中 ,Ci 是 第 i 个 类 ; ci 是 这 个 类 的 中 心 ; | ， | 表示 距离 运算 ,可 以 是 欧 氏 距离 或 其 他 
距离 度量 方法 。 

输出 : K 个 类 , 即 每 个 对 象 的 类 别 标签 {(di,c),， (ds,cs) (d,scn))。 

K-means 算法 简单 ,容易 实现 ,但 是 存在 以 下 问题 需要 进一步 解决 。 

(1) 要 多 次 扫描 样本 数据 ,复杂 度 为 O(nK) ,其 中 4 是 迭代 次 数 。 

(2) 不 能 发 现任 意 形状 的 类 簇 , 只 能 用 于 发 现 圆 形 或 球形 的 簇 。 

(3) 初始 中 心 的 选择 对 结果 有 较 大 影响 。 

(4) 需要 用 户 事先 指定 聚 类 的 个 数 。 

在 初始 中 心 选 择 上 ,有 多 种 策略 ,如 通过 初步 判断 密集 区 域 来 决定 或 算法 随机 执行 多 次 
等 ,而 用 户 设 定 KK 并 不 是 一 件 很 容易 的 事 。 因 此 ,就 需要 在 一 定 范围 内 设 定 不 同 玉 值 .分 
别 聚 类 ,选择 平方 误差 最 小 的 聚 类 作为 最 终结 果 。 尽 管 如 此 ,也 难于 获得 全 局 最 优 的 聚 类 
结果 。 

DBSCAN(Density-Based Spatial Clustering of Applications with Noise) 是 一 种 基于 密 
度 的 聚 类 方法 ,能 将 密度 足够 大 的 相 邻 区 域 进行 连接 ,发 现任 何 形 状 的 稠密 区 域 , 主 要 用 于 
对 空间 数据 的 聚 类 。 具 有 处 理 噪声 数据 、 聚 类 速度 快 .发 现任 意 形状 的 簇 等 优点 。 

该 算法 依据 聚 类 空间 中 一 定 区 域内 所 包含 对 象 的 数目 不 小 于 某 一 给 定 阔 值 这 一 准则 将 
具有 足够 密度 的 区 域 划分 为 簇 ,对 应 为 密度 相连 的 点 的 最 大 集合 。 不 同 于 K-means 聚 类 算 
法 ,DBSCAN 算法 可 以 自动 确定 簇 的 数量 ,不 需要 事先 指定 聚 类 的 个 数 。 

算法 的 基本 流程 介绍 如 下 。 

输入 : 数据 对 象 集合 D 二 {di， ds,…,d,) .半径 s, 密 度 阔 值 MinPts。 

处 理 步骤 如 下 。 

(1) 所 有 对 象 标志 为 未 被 访问 。 

(2) 从 数据 集 D 中 随机 选择 一 个 没有 被 访问 过 的 对 象 d ,检查 d 的 e- 邻 域 ,获取 d 的 e- 
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邻 域内 的 对 象 数量 | Ne(d) | 。 

车 | N.(d)| 宇 MinPts, 则 4d 被 确认 为 核心 对 象 ,将 d 标 为 已 访问 并 建立 新 簇 C ,将 d 放 
入 新 簇 C 中 ,d 的 s 邻 域内 的 对 象 都 加 入 候选 集 N 中 。 

若 |NeCd)| 二 MinPts, 则 将 d 标记 为 噪声 。 

(3) 依次 处 理 候选 集 N 中 的 每 个 对 象 9, 若 g 标记 为 已 访问 , 则 处 理 NN 中 的 下 一 个 
对 象 。 

若 4 未 被 访问 , 则 检查 g 的 = 邻 域 , 获 取 4 的 = 邻 域内 的 对 象 数量 | N.(g)|, 若 |N.(g) | 三 
MinPts, 则 把 g 的 e- 邻 域内 的 对 象 都 添加 到 NN 中 。 

如 果 g 不 属于 任何 一 个 簇 , 则 将 g 加 入 C; 将 g 标记 为 已 访问 。 

(4) 重复 步骤 (3) ,继续 检查 候选 集 N 中 有 没有 被 处 理 的 对 象 ,直到 N 中 的 对 象 都 已 访 
问 为 止 。 

(5) 重复 步骤 (2) 一 (4) ,直到 所 有 的 对 象 都 被 访问 过 , 且 被 划分 到 其 中 某 一 簇 或 被 认定 
为 噪声 为 止 。 

输出 : 聚 类 C, 即 每 个 对 象 的 类 别 标签 {(di ,ci) ，(dz cz)，… ,Cdcn))。 

DBSCAN 算法 虽然 不 需要 指定 类 的 个 数 , 但 是 也 引入 了 两 个 参量 s 和 MinPts, 看 似 使 
得 用 户 交互 变 得 更 加 复杂 。 但 是 ,这 两 个 参数 设 定 了 一 个 半径 为 s 的 圆 内 所 需要 的 点 数 ,其 
设 定 要 比 选择 一 个 聚 类 个 数 容易 得 多 ,因此 减 小 实际 应 用 中 的 不 确定 性 。 当 然 ,如果 一 个 入 
内 点 的 密度 分 布 不 均匀 ,密度 变化 太 大 的 簇 ,该 算法 得 到 的 结果 并 不 理想 。 对 于 较 高 维 空 
间 , 密 度 的 定义 也 不 是 太 容易 确定 。 

从 上 面 两 种 类 型 的 聚 类 算法 来 看 ,要 完全 消除 算法 所 需要 的 参数 是 很 困难 的 。 层 次 聚 
类 方法 也 是 试图 改变 参数 设置 的 问题 , 它 将 数据 集 组 织 成 若干 组 并 形成 一 个 相应 的 层次 树 
状 图 ,每 个 层次 都 是 一 个 不 同 粗细 粒度 的 聚 类 结果 ,由 用 户 自己 决定 要 以 哪 一 层 作 为 最 终 的 
聚 类 结果 。 

层次 聚 类 算法 可 以 分 为 两 类 : 自 底 向 上 的 聚合 层次 聚 类 和 自 顶 向 下 的 分 解 层次 聚 类 。 
聚合 聚 类 的 策略 为 先 将 每 个 对 象 各 自作 为 一 个 原子 聚 类 ,然后 将 这 些 原 子 聚 类 逐 层 进行 聚 
合 , 直 到 满足 一 定 终止 条 件 。 而 分 解 聚 类 则 是 与 前 者 相反 ,将 所 有 对 象 作为 一 个 聚 类 ,然后 
不 断 分 解 直到 满足 最 终 终止 条 件 。 基 于 层次 方法 思想 的 算法 有 BIRCH 算法 .CURE 算法 、 
CHAMELEON 算法 等 。 


6.7 回归 分 析 


回归 分 析 的 应 用 极其 广泛 ,例如 在 经 济 学 中 使 用 其 他 经 济 学 指标 预测 股市 指数 ,基于 高 
空气 流 特征 预测 一 个 地 区 的 降水 量 ,还 有 可 以 用 于 疾病 的 自动 诊断 等 。 

回归 和 分 类 是 机 器 学 习 中 监督 学 习 的 两 种 不 同 的 解决 问题 的 方法 ,回归 和 分 类 主要 区 
别 在 于 输出 结果 不 同 . 回 归 的 输出 结果 可 以 是 连续 的 .也 可 以 是 离散 的 ; 但 分 类 的 输出 结果 
是 离散 的 , 即 类 别 标签 。 它 们 都 是 用 来 预测 的 .但 是 预测 结果 有 区 别 , 连 续 变 量 的 预测 需要 
通过 回归 来 实现 ; 分 类 是 离散 变量 预测 。 例 如 ,预测 明天 的 温度 曲线 是 回归 ,预测 明天 是 晴 
天 、 雨 天 是 分 类 。 

与 回归 分 析 有 关 的 另 一 个 概念 是 相关 分 析 ,需要 区 分 这 两 种 分 析 的 差异 和 联系 ,主要 体 
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现在 以 下 若干 个 方面 。 


(1) 相关 分 析 是 研究 变量 之 间 是 否 存 在 某 种 依存 关系 .并 对 具体 有 依存 关系 的 现象 探 
讨 其 相关 方向 及 相关 程度 。 回 归 分 析 是 通过 一 个 变量 或 一 些 变 量 解 释 男 一 个 变量 的 变化 。 

(2) 相关 分 析 需 要 依靠 回归 分 析 来 表示 变量 之 间 的 具体 形式 ,回归 分 析 需 要 相关 分 析 
来 表现 变量 之 间 数 量变 化 的 相关 程度 。 

(3) 相关 分 析 中 变量 是 对 等 的 ,而 回归 分 析 中 变量 分 为 自 变 量 和 因 变 量 , 变 量 是 不 对 等 
的 。 同 时 ,相关 分 析 中 所 有 变量 都 是 随机 变量 ,而 回归 分 析 中 自 变 量 是 确定 的 , 因 变量 是 随 
机 的 。 

(4) 相关 分 析 中 主要 依靠 相关 系数 来 反映 变量 之 间 的 相关 程度 ,相关 系数 是 唯一 确定 
的 ,而 回归 分 析 中 则 可 能 存在 多 个 估计 函数 。 


6.7.1 回归 分 析 的 基本 思路 


回归 是 一 种 预测 建 模 技术 ,其 中 被 估计 的 目标 变量 是 连续 的 。 回 归 分 析 是 确定 两 种 或 
两 种 以 上 变量 之 间 相互 依赖 的 定量 关系 的 一 种 统计 分 析 方 法 ,本 质 上 是 一 个 函数 估计 的 问 
题 ,是 找 出 因 变量 和 自 变量 之 间 的 因果 关系 。 

假设 D 是 一 个 包含 N 个 观测 的 数据 集 ,表示 为 D={(ziyyD),i 一 1,2,…,N)}。 每 个 xi 
对 应 于 第 ; 个 观测 的 属性 集 (又 称 为 说 明 变 量 或 自 变量 ),w 对 应 于 目标 变量 (也 称 为 因 变 
量 )。 回 归 是 一 个 任务 , 它 学 习 一 个 把 每 个 属性 集 z 映射 到 一 个 连续 值 输出 的 目标 函数 /。 

回归 分 析 方法 也 有 很 多 种 ,以 下 是 回归 分 析 方法 的 两 种 分 类 方法 。 

(1) 按照 涉及 的 变量 个 数 的 多 少 ,分 为 一 元 回归 和 多 元 回归 分 析 。 

一 元 回归 分 析 是 指 在 回归 分 析 中 只 包括 一 个 自 变 量 和 一 个 因 变量 ,并 且 两 者 的 关系 可 
用 一 条 直线 近似 表示 。 

多 元 回归 分 析 是 自 变量 的 个 数 大 于 等 于 2 的 情况 , 按 因 变 量 和 自 变量 的 数量 对 应 关系 
又 可 进一步 分 为 以 下 两 种 情况 。 

@ “一 对 多 ”回归 分 析 : 一 个 因 变量 对 多 个 自 变量 的 回归 分 析 。 

@ “多 对 多 "回归 分 析 : 多 个 因 变量 对 多 个 自 变量 的 回归 分 析 , 这 种 同时 对 多 个 因 变 量 
所 进行 的 回归 分 析 , 也 称 为 多 重 回归 分 析 。 

(2) 根据 描述 自 变量 与 因 变量 之 间 因 果 关 系 的 函数 表达 式 / 是 线性 的 还 是 非 线性 的 ， 
可 分 为 线性 回归 分 析 和 非 线性 回归 分 析 。 

@ 线性 回归 分 析 : 指 自 变量 和 因 变 量 之 间 存 在 线性 关系 。 

@ 非 线性 回归 分 析 : 当 回归 模型 的 因 变 量 是 自 变量 的 一 次 以 上 函数 形式 ,回归 函数 在 
形式 上 表现 为 形态 各 异 的 各 种 曲线 。 

回归 分 析 的 目标 是 寻找 一 个 可 以 以 最 小 误差 拟 合 输入 数据 的 目标 函数 ,其 中 误差 函数 
可 以 用 绝对 误差 或 者 平方 误差 表示 。 

绝对 误差 = >) | y; 一 f(x?) | 





平方 误差 一 2) Gy: 一 fz))? 
回归 的 过 程 是 一 种 典型 的 机 器 学 习 的 过 程 ,首先 给 定 一 个 输入 数据 集 ,然后 通过 算法 进 
行 计算 得 到 一 个 估计 函数 ,这 个 估计 函数 也 就 是 一 个 模型 ,能 够 对 新 的 数据 给 出 一 个 新 的 估 
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计 或 预测 。 这 个 过 程 如 图 6-20 所 示 , 包 含 了 训练 和 测试 两 个 过 程 。 
输入 数据 














机 器 学 习 方 法 














新 数据 估计 函数 新 估计 
图 6-20 ”回归 分 析 的 基本 思路 


回归 模型 构造 的 基本 思路 如 下 。 

(1) 构造 估计 函数 /。 

(2) 构造 误差 函数 J 和 参数 0 。 

(3) 根据 输入 数据 ,运用 机 器 学 习 算法 寻找 参数 0, 使 得 误差 函数 ] 最 小 。 

在 模型 构造 完成 之 后 ,对 新 数据 的 预测 就 比较 简单 了 ,只 要 将 数据 输入 到 评估 模型 中 进 
行 计算 即 可 。 


6.7.2 线性 回归 


线性 回归 假设 特征 和 结果 之 间 存 在 线性 关系 。 假 设 特征 X 一 {zi ,zo，… ,zx,) ,然后 目标 
函数 或 估计 函数 为 : 








F(x) folz) 如 十 Orzli 十 02zrs 十 … 十 Or 一 So (6-82) 
其 中 ,0=(0,,01,0,,… ,0,) 为 参数 ,为 了 简化 表示 ,在 输入 特征 中 加 入 zo 二 1, 可 以 将 这 个 丙 
数 写 为 向 量 形式 ， 
f(x) 一 0x (6-83) 
对 于 给 定 的 训练 集 D= {(zivyD) ,i 二 1,…,m) ,然后 选取 平方 误差 作为 该 函数 的 误差 函 
数 , 即 : 


J(0) = 3 ox) 一 3 (6-84) 
这 个 误差 函数 为 估计 值 /0(xi) 与 真实 值 w 差 的 平方 并 对 每 个 样本 求 和 。 而 式 子 前 面 
的 去 则 是 为 了 在 求 导 时 ,将 该 参数 消除 掉 。 


回归 的 目的 为 ,选取 参数 集 0, 使 得 误差 函数 J(0) 最 小 , 即 minJ (0) 。 

基本 方法 是 调整 参数 0. 使 得 J(0) 最 小 ,就 可 以 确定 参数 0, 所 以 该 问题 是 一 个 求 极 小 值 
问题 。 常 用 方法 有 梯度 下 降 法 和 最 小 二 乘法 。 

梯度 下 降 法 是 一 个 最 优化 算法 .常用 于 机 器 学 习 中 递归 性 的 逼近 最 小 误差 模型 。 梯 度 
下 降 法 的 流程 如 下 。 

(1) 对 0 赋值 ,这 个 值 可 以 是 随机 的 .也 可 以 是 一 个 全 为 零 的 向 量 。 

(2) 改变 9 的 值 .使 得 (0) 按照 梯度 下 降 的 方向 减少 。 

梯度 更 新 为 : 


9J (0) 


a a0 (6-85) 


0 一 一 
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其 中 ,j 二 0,1,… ,noa 为 学 习 速 率 ,对 于 训练 集中 的 某 个 样本 (xi;,yi) ,那么 有 : 

















aJ(0) _ 3/1 ed 
a0; sw 一] ) 
a9/ 
ft) (or! ») 
= (fo(zi) — yx! (6-86) 
所 以 ,其 更 新 规则 如 下 : 
0: = 0—a( fix) — yz (6-87) 


对 所 有 训练 样本 ,迭代 更 新 或 者 递归 更 新 的 方式 有 两 种 ,一 种 是 批 梯 度 下 降 ,就 是 对 全 
部 的 训练 数据 求 误差 后 再 对 0 进行 更 新 ; 另 一 种 是 随机 梯度 下 降 ,每 一 步 迭 代 中 ,随机 选择 
m 个 样 来 求 9 的 值 。 

最 小 二 乘法 是 另 一 种 求解 方法 ,采用 直接 的 计算 结果 的 方法 ,可 以 直接 利用 和 矩阵 运算 得 
到 0 的 值 。 

假设 函数 / 是 将 m Xn 维和 矩阵 映射 为 一 个 实数 的 运算 ,并 且 定 义 和 矩阵 A, 映射 /(A) 对 
4 的 梯度 为 : 














CL 
9An a9A 
Vf(A)= : Se (6-88) 
of 5 2 
9Anm DA 
因此 ,该 梯度 为 mXn 的 矩阵。 
例如 ,假设 
A = Au A 
[ | 
f(A) = 3An 十 5A%z 十 AziAzz 
则 
. 人 10Ali; 
Wf(A)= | 2 
Azz A 
矩阵 的 迹 是 指 和 矩阵 4 的 对 角 线 元 素 之 和 : 
trA = DAs (6-89) 
to 
同时 对 于 和 矩阵 的 迹 的 梯度 运算 .有 如 下 规则 : 
WtrAB = BT 


Wrf CA) = (WMA)T 

WwWtrABATC = CAB 十 CTABT7 

Vl Al=|A1 (AD (6-90) 
将 输入 < 和 输出 y 表示 成 向 量 形式 : 


3 
1 1 
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估计 函数 为 fo(x) 一 Zr 二 07rx 二 x10, 则 可 以 得 到 : 


十 


| 1 for)—y 
2 一 了 一 | : (6-91) 
50 攻 PoCzm) 一 ym 














即 
2 (XO—3)TCXO—3) 2 BD ar) 3) = 100) (6-92) 
则 可 以 计算 误差 函数 的 梯度 : 
WO)= WICXO—3) "(XO —7) 
WOXTXO— OXF — FXO + 7 Ty) 
一 到 Wir(OTXTXO— OXTY — XO+ TY) 
一 玛 员 CegrXTXO 一 2 了 XO) 
一 (XXO+ XTXO 一 2X 了 7) 
= XTXO— XY (6-93) 
令 上 述 梯度 为 0, 则 得 到 X7X0=XY, 即 9 值 为 : 
8 三 (XXX) 一 和 7 六 (6-94) 
线性 回归 中 还 有 带 权重 的 线性 回归 、 多 元 线性 回归 等 模型 ,其 适用 问题 不 同 ,但 原理 
相同 。 


6.7.3 加 权 线 性 回归 


首先 考虑 图 6-21 中 的 曲线 拟 合 情 况 ,图 6-21(a) 使 用 线性 拟 合 f(x) = fo(z)= 二 0 十 Ox 十 
bz, 可 以 看 出 图 中 数据 点 不 完全 在 一 条 直线 上 ,所 以 拟 合 效 果 并 不 好 。 如 果 加 入 z 项 ,得 
到 f(z) 二 f(x) 二 十 Ox 十 2x? ,如 图 6-21(b) 所 示 , 该 二 次 曲线 可 以 更 好 地 拟 合 数据 点 。 
如 果 加 入 更 高 次 项 ,可 以 得 到 图 6-21(c) 中 的 拟 合 曲线 ,可 以 完美 地 拟 合 数据 点 。 

但 过 于 完美 的 曲线 ,对 新 的 数据 可 能 预测 效果 并 不 好 。 对 于 图 6-21(a) 中 的 曲线 ,过 小 
的 特征 集合 使 得 模型 过 于 简单 不 能 很 好 地 表达 数据 的 结构 , 则 称 为 从 拟 合 ; 而 图 6-21(c) 中 
的 曲线 ,过 大 的 特征 集合 使 得 模型 过 于 复杂 , 则 称 为 过 拟 合 。 

















(b) (9 
图 6-21 曲线 拟 合 
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加 权 线 性 回归 和 线性 回归 的 区 别 在 于 对 不 同 的 输入 观测 点 赋予 了 不 同 的 权重 。 加 权 的 
思路 来 自 实际 观察 ,在 实际 应 用 中 ,不 可 避免 存在 有 些 观 测 点 误差 大 ,而 有 些 观测 点 误差 小 
的 情况 。 这 就 需要 在 进行 拟 合 时 ,不 必 太 多 地 去 考虑 误差 大 的 观测 点 ,而 要 尽 可 能 逼近 误差 
小 的 观测 点 。 因 此 ,就 用 一 个 权重 来 表示 观测 点 的 权重 ,由 此 得 到 的 加 权 线 性 回归 的 误差 函 
数 为 ， 





J(0) = Do (Cy: — O07:) (6-95) 
i=1 
其 中 ,第 i 个 观测 点 (zi,yi) 的 权重 ,一 般 可 以 选择 如 下 的 函数 形式 : 
ee 2 
wi = exp(— Ei) (6-96) 


它 表示 离 x 越 近 的 样本 权重 越 大 , 越 远 的 样本 影响 越 小 。 这 样 能 够 提高 对 小 误差 样本 点 的 
权重 。 


6.7.4 逻辑 回归 


线性 回归 的 因 变量 是 连续 变量 ,而 自 变 量 既 可 以 是 连续 变量 ,也 可 以 是 分 类 变量 。 但 是 
在 实际 应 用 中 ,会 遇 到 一 些 因 变量 是 分 类 变量 的 情况 ,而 不 可 能 是 连续 变量 ,如 预测 新 闻 类 
别 、. 病 症 分 类 .评论 的 正 负 极 性 等 。 这 就 可 以 使 用 另 一 种 回归 分 析 方 法 , 即 逻 辑 回归 
(Logistic Regression) , 虽 是 回归 ,但 Logistic 回归 实际 上 用 于 分 类 问题 。Logistic 回归 实质 
上 还 是 一 种 线性 回归 模型 ,只 是 在 回归 的 连续 值 结 果 上 加 了 一 层 逻辑 函数 映射 , 它 将 连续 值 
映射 到 离散 值 ,所 以 可 以 看 作 是 一 种 广义 的 线性 回归 分 析 模 型 。 

在 逻辑 回归 分 析 适 用 的 问题 中 ,分 类 变量 既 可 以 是 二 分 类 的 ,也 可 以 是 多 分 类 的 ,多 分 
类 中 既 可 以 是 有 序 的 ,也 可 以 是 无 序 的 。 二 分 类 Logistic 回归 根据 研究 目的 又 可 分 为 条 件 
Logistic 回归 和 非 条 件 Logistic 回归 。 

在 Logistic 回归 分 析 所 解决 的 分 类 问题 中 , 因 变量 是 分 类 型 变量 ,而 从 数学 角度 看 ,很 
难 找到 一 个 函数 y 三 A(x), 当 工 变 化 时 ,函数 值 y 只 取 与 分 类 型 变量 对 应 的 两 个 或 几 个 有 限 
值 。 因 此 研究 者 将 这 个 问题 的 解决 转换 了 一 个 角度 ,不 直接 分 析 > 与 + 的 关系 ,而 是 分 析 y 
取 某 个 值 时 的 概率 值 p 与 x 之 间 的 关系 。 

在 这 样 的 思路 下 ,就 要 寻找 一 个 连续 函数 g 王 p(x) ,使 得 当 z 在 任意 范围 内 变化 时 ,所 
数值 始终 在 [0, 1] 范围 内 。 显 然 ,数学 上 这 样 的 函数 有 很 多 种 ,如 Logistic 回归 模型 。 

Logistic 回归 模型 描述 如 下 。 

设 Y 是 一 个 二 分 类 变量 , 它 的 取 值 为 0 或 1。 影 响 Y 的 m 个 自 变 量 分 别 为 xz1, zx:，…， 


ny 令 
g(7) 一 育 十 风 D 十 … 十 Rzn (6-97) 
则 函数 f(x) 为 多 元 Logistic 回归 函数 
f(z) = Tr (6-98) 


在 函数 g(xz) 中 ,po 称 为 常数 项 ,其 他 系数 称 为 偏 回 归 系 数 。 
为 了 能 更 直观 地 观察 函数 形态 ,假设 
g(7)=R (6-99) 
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函数 的 形态 如 图 6-22 所 示 , 图 中 展示 了 8 二 1、B8 二 0.5 两 种 情景 。 可 见 该 函数 的 特点 
是 : 当 工 为 正 无 穷 大 时 ,函数 取 值 趋向 于 1.0; 当 工 为 负 无 穷 大 时 ,函数 值 趋 于 0, 当 z=0 
时 ,函数 值 为 0.5。 并 且 可 以 通过 调整 系数 大 小 来 决定 函数 趋向 于 0 或 1.0 的 快慢 。 由 于 
函数 的 形态 呈 S 形变 化 ,因此 也 称 为 Sigmoid 曲线 (或 S 形 曲线 )。 









































A 0 -5 0 5 10 15 
图 6-22 ”Logistic 回归 模型 


在 神经 网 络 中 ,Sigmoid 曲线 也 通常 作为 激活 函数 。 为 什么 这 种 函数 会 受到 青睐 而 广 
泛 应 用 呢 ? 它 开始 出 现 于 生态 学 的 研究 中 ,有 个 Verhulst 微分 方程 用 于 描述 在 资源 有 限 的 
条 件 下 种 群 增长 规律 的 变化 。1976 年 (自然 ) 杂 志 上 发 表 了 一 篇 论文 “表现 非常 复杂 的 动力 
学 的 简单 数学 模型 ”, 文 中 揭示 出 Verhulst 方程 深 处 蕴藏 的 丰富 内 涵 , 内 容 已 超越 了 生态 学 
领域 ,从 而 引起 学 术 界 极 大 关注 ,可 见方 程 具有 很 强 的 普 适 性 。 而 这 个 方程 后 来 被 称 为 
Logistic 方程 ,方程 的 解 在 0 时 刻 的 函数 形式 正好 就 是 前 面 定义 的 回归 函数 /(x)。 

对 于 二 分 类 变量 Y, 将 它 在 不 同 取 值 (0,1) 下 的 概率 函数 设 定 为 逻辑 回归 函数 


f(z). 令 
总 硅 i (6-100) 
则 
Ds= 0 (6-101) 
J eR (6-102) 


因此 在 利用 Logistic 回归 模型 进行 分 类 时 ,只 要 计算 样本 xz 对 应 的 P 值 ,然后 就 可 以 
根据 PP 和 1 一 P 的 大 小 来 决定 该 样本 是 属于 0 或 1 类别 。 而 在 利用 Logistic 回归 模型 分 类 
之 前 ,需要 确定 函数 中 的 常数 项 和 偏 回 归 系 数 , 即 Bo、Bl、…、Bn。 参 数 估计 通常 采用 极 大 似 
然 估 计 法 ,其 基本 思想 是 建立 似 然 函数 和 对 数 似 然 函数 , 求 使 得 对 数 似 然 函 数 最 大 时 的 参 
数值 。 

假设 有 nn 个 样本 ,那么 似 然 函数 可 以 写成 : 


L= [PY(1— PO™ (6-103) 
i=1 
其 对 数 形式 为 : 
lnL = >)[yilnP; 十 (1 一 Yi)ln(1 一 PiD)] (6-104) 
i=1 


对 于 二 分 类 问题 来 说 ,Y; 的 取 值 为 0 或 1; P; 包含 常数 项 和 偏 回 归 系 数 ,因此 通过 对 这 
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些 参数 求 偏 导数 , 即 令 式 (6-105) 成 立 , 可 以 求 得 这 些 参数 。 
alnL 
oB; 

Logistic 回归 模型 的 系数 是 自 变量 作用 大 小 的 一 种 度量 ,但 是 因为 自 变量 量 纲 不 同 ,不 

能 简单 通过 系数 来 判断 自 变量 对 因 变 量 的 影响 。 为 了 进行 比较 ,需要 计算 出 标准 回归 系数 。 

计算 原理 和 线性 回归 分 析 一 样 。 标 准 化 后 ,绝对 值 最 大 的 标准 回归 系数 对 应 的 自 变量 对 因 

变量 的 影响 最 大 。 

普通 的 Logistic 回归 只 能 做 二 分 类 ,对 于 多 分 类 问题 ,就 不 能 直接 使 用 ,而 需要 做 些 
改进 。 
一 种 思路 是 对 分 类 系统 的 每 个 类 别 都 建立 一 个 Logistic 二 分 类 器 , 带 有 这 个 类 别 的 样 

本 标记 为 正 例 , 带 有 其 他 类 别 的 样本 标记 为 负 例 。 那 么 对 于 有 个 类 别 的 问题 ,可 以 得 到 

KK 个 普通 的 Logistic 分 类 器 。 在 这 种 处 理 方法 下 ,可 能 会 有 一 个 测试 样本 被 划分 到 多 个 类 

别 的 情况 ,因此 需要 在 最 后 的 环节 进行 决定 ,如 按照 使 分 类 函数 输出 值 最 大 的 类 别 选 择 

原则 。 

第 二 种 思路 是 修改 Logistic 回归 似 然 函 数 的 求解 ,不 只 考虑 二 分 类 非 1 就 0 的 情况 ,让 

其 适应 多 分 类 问题 。 这 种 方法 称 为 Softmax 回归 ,是 Logistic 回归 的 多 分 类 扩展 ,在 目前 深 

度 学 习 中 应 用 很 多 。 

不 过 ,关于 在 实际 问题 中 ,是 选择 Softmax 分 类 器 还 是 个 Logistic 分 类 器 ,取决 于 所 有 

类 别 之 间 是 否 互 斥 。 如 果 所 有 类 别 之 间 明 显 互 斥 , 则 选用 Softmax 分 类 器 ; 如 果 类 别 之 间 

不 互 斥 有 交叉 的 情况 下 , 则 最 好 用 下 个 Logistic 分 类 器 。 


6.8 大 数据 分 析 算 法 的 并 行 化 


大 数据 分 析 所 面 对 的 数据 量 通 常 是 巨大 的 ,由 此 带 来 了 高 计算 复杂 度 的 问题 。 以 往 主 
要 针对 单机 系统 而 设计 的 分 析 算 法 就 难于 在 可 接受 的 时 间 内 完成 计算 任务 。 面 向 大 数据 分 
析 处 理 的 并 行 化 挖掘 算法 就 很 有 必要 了 。 本 节 介 绍 MapReduce 并 行 执行 框架 ,然后 以 朴素 
Bayes 分 类 算法 以 及 K-means 聚 类 算法 为 例 介 绍 经 典 算法 的 并 行 化 实现 方法 。 


6.8.1 并 行 化 框架 


MapReduce 在 很 多 文献 或 网 站 都 有 详细 的 介绍 ,这 里 做 个 简单 介绍 ,也 方便 后 面 针 对 
两 种 经 典 算法 的 并 行 化 方法 说 明 。 

MapReduce 是 一 种 用 于 大 规模 数据 集 并 行 运算 的 编程 模型 ,这 种 编程 模型 与 人 们 平常 
所 使 用 的 编程 语言 不 同 , 它 是 一 种 非 汉 。 诺 依 曼 式 的 程序 设计 语言 , 称 为 函数 式 语言 ,基本 
思想 是 “程序 就 是 函数 ”。 这 种 郴 数 式 语言 中 的 内 置 有 两 个 函数 map 和 reduce, 其 中 map 用 
于 对 一 个 列表 (List) 中 的 每 个 元 素 做 计算 ,reduce 用 于 对 列表 中 的 每 个 元 素 做 迭代 计算 。 
map 和 reduce 提供 的 只 是 一 个 计算 的 框架 ,具体 要 实现 的 功能 就 是 编程 的 地 方 。 

在 Google 提出 的 MapReduce 编程 框架 中 ,对 数据 处 理 和 并 行 任 务 调度 的 考虑 到 了 大 
规模 数据 集 的 划分 和 并 行 节点 之 间 的 数据 交换 。 系 统 会 自动 将 一 个 作业 (Job) 待 处 理 的 大 
数据 划分 为 很 多 个 数据 块 ,每 个 数据 块 对 应 于 一 个 计算 任务 (Task) ,并 自动 调度 集群 中 的 
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计算 节点 来 处 理 相应 的 数据 块 。 这 些 计 算 节点 可 以 是 map 节点 或 reduce 节点 。 在 整个 作 
业 的 执行 过 程 中 ,由 作业 和 任务 调度 模块 来 负责 分 配 和 调度 计算 节点 ,同时 负责 监控 这 些 节 
点 的 执行 状态 ,并 负责 map 节点 执行 的 同步 控制 。 

由 于 每 个 节点 独立 完成 计算 任务 .需要 进行 计算 结果 、 输 入 数据 的 传递 ,因此 还 是 需要 
一 定 的 数据 通信 量 。 为 了 减少 数据 通信 ,MapReduce 采取 本 地 化 数据 处 理 的 原则 , 即 一 个 
计算 节点 尽 可 能 处 理 其 本 地 磁盘 上 所 分 布 存储 的 数据 , 尽 可 能 从 数据 所 在 的 本 地 机 架 上 寻 
找 可 用 节点 以 减少 通信 延迟 。 

在 Google MapReduce 论文 中 描述 了 如 何在 该 执行 框架 下 解决 大 文本 集中 每 个 词汇 出 
现 次 数 的 统计 问题 。 图 6-23 是 该 论文 提供 的 一 个 执行 流程 的 总 体 示意 图 ,图 中 标 出 了 执行 
的 步骤 和 顺序 。 在 这 个 框架 中 , 先 将 大 型 数据 集 进行 分 割 ,然后 在 map 阶段 由 各 个 并 行 计 
算 节 点 (worker) 在 map 函数 中 执行 计数 ,统计 结果 写 入 到 磁盘 文件 。 然 后 由 另外 一 类 计算 
节点 在 reduce 函数 执行 汇总 统计 ,从 而 得 到 最 终 的 计数 结果 。 从 这 个 执行 过 程 可 以 看 出 ， 
MapReduce 是 基于 磁盘 进行 运算 的 数据 交换 ,因此 会 生成 大 量 的 临时 文件 ,为 了 提高 效率 ， 
它 利用 Google 文件 系统 来 管理 和 访问 这 些 文件 。 
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(1) fork_， 、(l) fork 








ID) fork、、 
7 
7 GO) (Masten) (2) 
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(4) local write 
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图 6-23 MapReduce 上 的 执行 流程 


在 MapReduce 中 ,map 处 理 的 是 原始 数据 ,每 条 数据 之 间 互 相 没有 关系 。 但 是 在 
reduce 阶段 ,数据 是 以 key 后 面 跟着 若干 个 value 来 组 织 的 。MapReduce 使 用 mapper 将 数 
据 处 理 成 一 个 < key, value > 键 值 对 ,在 网 络 节点 间 对 其 进行 整理 (Shuffle), 然 后 使 用 
reducer 处 理 数据 并 进行 最 终 输出 。 

在 Google 提供 的 大 文本 集中 统计 每 个 词汇 出 现 次 数 的 问题 中 .map 函数 接受 的 键 
(key) 是 文件 名 , 值 (value) 是 文件 的 内 容 。map 逐个 遍历 单词 ,每 遇 到 一 个 单词 w, 就 产生 
一 个 中 间 键 值 对 < w."1">. 这 表示 找到 了 一 个 单词 w。 
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function map( String name, String document): 
//name: document name (key) 
//document: document contents (value) 
for each word w in document: 
emit (w, 1) 


MapReduce 框架 会 将 map 函数 产生 的 中 间 键 值 对 中 键 相 同 的 值 传递 给 一 个 reduce 函 
数 。 这 样 ,单词 w( 键 ) 对 应 的 "1”( 值 ), 所 有 这 样 的 < key，value > 对 就 会 被 传递 给 reduce 也 
数 , 当 然 在 这 个 过 程 ,来 自 每 个 map 的 value, 即 “1”, 经 过 了 整理 变 成 了 一 串 “1”, 作 为 
reduce 的 输入 value。 因 此 ,reduce 函数 接受 的 键 就 是 单词 w, 值 是 一 串 "1”, 个 数 等 于 键 为 
w 的 键 值 对 的 个 数 ,然后 将 这 些 “1” 累 加 就 得 到 单词 w 的 出 现 次 数 。 所 以 reduce 就 是 接受 
一 个 键 及 相关 的 一 组 值 ,将 这 组 值 进行 合并 产生 一 组 规模 更 小 的 值 。 

function reduce(String word, Iterator partialCounts) : 


//word: aword (key) 
//partialCounts: a list of aggregated partial counts (value) 


sum=0 
for each pc in partialCounts: 
sum+= pc 


emit (word, sum) 


最 后 ,将 这 些 单词 的 出 现 次 数 写 到 用 户 定 义 的 位 置 ,存储 在 底层 的 分 布 式 存储 系统 
(GFS 或 HDFS) 。 

从 抽象 化 的 编程 接口 看 , MapReduce 中 的 map 和 reduce 两 个 函数 的 输入 输出 可 以 表 
示 如 下 。 

(1) map: 将 一 个 键 值 对 表示 的 数据 处 理 后 ,转换 成 为 一 组 键 值 对 ,是 一 个 键 值 对 的 集 
合 , 即 

(kisv1) — {(k2;v2)} 

(2) reduce; 将 一 组 键 及 各 自 对 应 的 多 个 不 同 的 值 作为 输入 ,经 过 某 种 整理 计算 后 , 输 

出 一 组 新 的 键 值 对 , 即 
{(Rzi{(vz))) —> (Cks3v3)} 

可 以 看 出 来 ,reduce 的 输入 并 不 是 map 的 输出 ,而 是 经 过 了 整理 ,在 MapReduce 的 并 
行 编程 模型 中 称 为 Aggregation 和 Shuffle 操作 。 实 际 上 是 对 参与 计算 的 所 有 map 节点 的 
输出 按照 key 进行 了 归并 ,这 种 归并 要 确保 同一 个 key 对 应 的 所 有 value 合并 在 一 起 , 即 上 
面 所 写 的 {v) .并 输入 给 一 个 reduce 节点 。 

根据 上 面 对 MapReduce 的 介绍 ,可 以 针对 大 数据 场景 做 进一步 分 析 。 

第 一 ,由 于 数据 量 很 大 ,假如 有 10 亿 个 数据 ,mapper 会 生成 10 亿 个 < key, value > 对 在 
集群 网 络 上 进行 传输 ,从 而 造成 很 大 的 网 络 压 力 。 但 是 这 种 数据 传输 是 否 有 必要 ,就 要 取决 
于 具体 的 计算 要 求 , 如 只 是 求 这 些 的 最 大 值 ,就 可 以 让 mapper 只 需要 输出 它 所 知道 的 最 大 
值 即 可 。 在 MapReduce 中 还 提供 了 一 个 combiner 允许 用 户 针对 map task 的 输出 指定 一 
个 合并 函数 ,从 而 避免 map 任务 和 reduce 任务 之 间 的 数据 传输 而 设置 的 。 

第 二 ,MapReduce 采用 函数 式 编程 ,要 求 求解 任务 可 以 被 分 解 为 多 个 相对 独立 的 子 问 
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题 。 如 果 所 解决 的 问题 中 无 法 分 解 出 独立 的 子 任务 ,也 就 无 法 在 该 框架 下 实现 了 。 例 如 , 斐 
波 那 契 (Fibonacci ) 数 列 , 数 列 从 第 3 项 起 ,每 一 项 是 前 两 项 的 和 ,也 就 是 某 个 项 的 值 依赖 于 
前 面 的 计算 结果 ,因此 也 就 无 法 分 解 成 为 若干 个 互 不 相干 的 子 问题 ,不 能 用 MapReduce 来 

MapReduce 的 执行 过 程 所 涉及 的 类 如 图 6-24 所 示 。 各 个 类 简要 介绍 如 下 。 

(1) InputFormat 类 描述 了 MapReduce 作业 的 输入 形式 和 格式 ,对 输入 数据 进行 分 割 ， 
分 割 的 个 数 决定 了 mapper 的 个 数 。 

(2) InputSplit 与 InputFormat 对 应 。 

(3) RecordReader, 不 断 地 读 取 分 块 , 将 读 取 到 的 数据 转换 成 为 key-value 的 形式 。 

(4) Mapper 中 的 steup、map、cleanup 和 run 是 应 用 程序 编程 的 入口 。 

(5) Combiner 对 具有 相同 key 的 键 值 对 进行 合并 , 而 不 改变 其 数据 类 型 。 

(6) Partitioner 用 于 对 Mapper 或 Combiner 的 key-value 集合 进行 划分 ,保证 key 值 相 
同 的 数据 发 送 到 同一 个 Reduce, 因 此 Partitioner 划分 的 个 数 与 reduce 的 个 数 相同 。 

(7) Sort 对 数据 进行 升序 排列 。 

(8) Reduce 中 的 steup ,reduce ,cleanup 也 是 应 用 程序 编程 的 入 口 。 

(9) OutputFormat 描述 数据 输出 格式 。 

(10) RecordWriter 将 计算 结果 写 人 到 HDFS。 


InputSplit 


RecordReader 


Mapper Combiner Coaritioner ) 


图 6-24 MapReduce 执行 过 程 所 涉及 的 类 


6. 8.2 年 阵 相 乘 的 并 行 化 


两 个 矩阵 相 乘 是 大 数据 分 析 中 的 一 项 基本 运算 ,大 数据 应 用 中 的 矩阵 规模 一 般 都 很 大 ， 
如 在 文本 分 类 中 通常 词汇 维度 可 达 上 万 个 词汇 ,在 社交 网 络 分 析 中 节点 数量 也 会 很 大 。 对 
于 这 类 矩阵 乘积 显然 无 法 在 单机 环境 下 运算 ,因此 大 矩阵 相 乘 的 并 行 化 方法 就 很 重要 。 解 
决 这 类 问题 时 ,需要 针对 矩阵 的 不 同 特点 来 设计 合理 的 并 行 化 算法 。 主 要 从 稀 朴 矩阵 和 笛 
密 矩 阵 两 种 类 型 的 矩阵 来 考虑 ,其 中 稀疏 矩阵 的 特点 就 是 有 很 多 元 素 的 值 为 零 。 

在 MapReduce 框架 下 设计 大 和 矩阵 相 乘 算法 .主要 就 是 进行 map 和 reduce 函数 的 设计 ， 
除 此 之 外 ,设计 合适 的 输入 数据 格式 或 文件 格式 与 乘法 策略 设计 也 是 直接 相关 的 。 








HDFS 
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根据 矩阵 乘法 的 计算 方法 .如 下 表示 两 个 矩阵 A、B 的 乘积 结果 为 C 。 
Cln 
am bn piz | 


bu br Dln 

根据 矩阵 运算 法 则 ,可 以 知道 ,在 计算 C 中 (i, 门 元 素 的 值 时 ,需要 分 别 使 用 A、B 和 矩阵 
中 第 i 行 , 第 j 列 的 所 有 数据 ,因此 在 reduce 中 可 以 (i, 门 为 key 值 ,以 对 应 的 A、B 矩阵 中 
的 第 i 行 、 第 j 列 数据 为 value, 这 样 即 可 根据 上 式 进行 计算 ,在 多 个 reduce 的 参与 下 输出 乘 
积 结果 和 矩阵 C。 

当然 这 些 key-value 数据 是 经 过 Partitioner 处 理 过 的 ,而 每 个 map 的 输出 只 要 有 相同 
的 key 即 可 ,也 就 是 应 当 与 C 的 元 素 位 置 (i, 力 一 致 ,对 应 的 value 值 表示 A 或 B 上 相应 元 
素 即 可 。 

整个 过 程 可 以 用 图 6-25 表示 ,其 中 4A、B 和 矩阵 分 别 为 : 


QI daz QIA cu C1 
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在 进行 分 布 式 系统 中 计算 之 前 , 先 要 把 A、B 和 矩阵 元 素 保存 到 文件 系统 中 ,对 于 稀 朴 矩 
阵 可 以 按照 *( 行 , 列 ,数值 )" 的 形式 将 非 0 的 元 素 保存 起 来 ,如 图 中 最 左边 的 输入 数据 就 是 


这 两 个 矩阵 的 表示 。 








map 
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(1,2) (4,1,5) 



























(2,2)(B,1,4) 
(2.2)(B.2.6) 





图 6-25 MapReduce 下 的 矩阵 乘法 运算 
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在 这 个 计算 过 程 中 ,map 函数 的 key 值 矩 阵 数 据 文件 的 文件 名 (A、B) ,value 即 是 文件 内 


容 。 


该 函数 中 ,对 文件 中 的 内 容 进行 重新 整理 ,之 后 产生 输出 。 输 出 的 数据 集中 ,key 值 是 ( 行 ， 


列 ) 位 置 ,value 由 三 部 分 组 成 .除了 和 矩阵 数值 外 .还 应 当 包 括 来 源 和 矩阵 及 其 行 (B) 或 列 号 (A)。， 
因为 在 归并 整理 阶段 会 对 这 些 数据 进行 整理 ,因此 必须 保留 原始 矩阵 中 的 一 些 信息 。 
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在 这 个 示例 中 ,map 节点 的 个 数 自然 地 设置 成 2, 而 reduce 节点 的 个 数 设置 为 4。 实际 
中 ,要 根据 集群 的 配置 情况 进行 设置 ,如 果 reduce 的 节点 数 设 置 小 于 4, 那么 归并 得 到 的 4 
个 key 对 应 数据 集 就 无 法 并 行 地 完成 .导致 有 的 元 组 要 等 待 前 一 个 reduce 任务 完成 之 后 才 
能 进行 计算 。 此 外 ,这 种 方法 需要 将 原始 数据 根据 计算 结果 在 map 阶段 进行 多 次 复制 , 造 
成 存储 浪费 ,也 使 得 在 计算 节点 之 间 传 输 的 元 组 数量 增多 ,因此 适合 于 大 规模 稀 玻 和 矩阵 的 乘 

对 于 稠密 矩阵 ,该 方法 并 不 合适 ,需要 从 存储 和 网 络 传输 的 信息 量 等 关键 方面 进行 函数 
的 设计 。 为 了 能 够 处 理 超大 稠密 矩阵 的 乘积 ,可 能 采用 多 个 map 是 比较 合理 的 ,否则 有 可 
能 导致 矩阵 数据 文件 太 大 ,而 无 法 在 一 个 计算 节点 的 内 存 中 装 下 。 这 就 需要 对 和 矩阵 相 乘 的 
策略 做 一 定 变 化 ,如 运用 分 块 的 乘法 方法 ,让 每 个 map 处 理 一 个 块 的 相 乘 。 而 在 矩阵 数据 
文件 格式 上 ,只 要 以 行为 顺序 依次 保存 元 素 值 即 可 ,就 不 必 记 录 行 和 列 号 了 。 


6.8.3 ”经典 分 析 算法 的 并 行 化 


1.K-means 聚 类 算法 的 并 行 化 
6.6 节 介绍 过 K-means 聚 类 算法 ,假设 有 N 个 样本 ,到 类 的 类 数 设 定 为 K, 那 么 该 算 

法 迭代 4 次 的 时 间 复 杂 度 为 O(NK1) ,在 每 次 迭代 中 需要 计算 每 个 点 与 各 个 类 中 心 之 间 的 
距离 ,在 数据 量 大 的 场景 下 具有 很 大 的 时 间 复 杂 度 。 

对 于 K-means 来 说 ,每 个 点 与 聚 类 中 心 之 间 的 距离 计算 是 独立 的 ,因此 ,该 算法 就 可 以 
在 MapReduce 框架 下 实现 。 由 于 聚 类 过 程 需要 不 断 地 迭代 ,因此 需要 有 一 个 稍 复杂 一 点 的 
主 控 程 序 ,处理 流 程 如 图 6-26 所 示 。 

在 主 控 程 序 中 调用 MapReduce 过 程 来 完成 分 布 式 计算 。 总 体 的 思路 是 将 整个 数据 集 
中 的 点 分 配给 若干 个 map 节点 ,这 些 节点 独立 地 计算 数据 点 与 中 心 的 距离 , 求 得 最 近 中 心 。 

在 MapReduce 框架 中 的 并 行 化 步骤 具体 描述 如 下 。 

(1) 随机 从 数据 集中 选择 K 个 数据 点 作为 初始 的 类 中 















































心 点 。 首 先 需 要 定义 一 个 包含 聚 类 中 心 点 信息 (维度 取决 于 随机 选择 K 个 初始 中 心 
输入 数据 的 特征 个 数 ) 的 类 ,该 类 必须 实现 Writable 接口 ,是 下 
一 个 全 局 共享 数据 ,可 以 由 map 和 reduce 节点 访问 。 调用 map 将 样本 划分 到 

(2) map 节点 。 在 setup() 方 法 中 进行 一 些 初始 化 工 最 近 的 类 
作 , 包 括 获得 全 局 共享 数据 , 读 人 类 中 心 ; 在 map() 函数 中 ， 1 
读 取 本 地 数据 集 ,计算 每 个 数据 点 到 中 心 点 的 距离 ,选择 距 [reduce 计算 每 个 美的 中 心 
每 个 数据 点 (object) 最 近 的 中 心 点 (center) ,并 输出 < center， | 

(3) reduce 节点 。 该 函数 的 key 值 是 聚 类 中 心 的 ID， 
center value 是 该 中 心 所 包含 的 数据 点 集合 。 因 此 .函数 的 





处 理 过 程 中 ,就 针对 数据 点 的 每 个 属性 或 维度 计算 它们 所 对 
应 的 中 心 (平均 )。 主 控 程序 在 这 个 步骤 之 后 .需要 判断 是 否 
达到 收敛 ,如 果 还 没有 , 则 删除 原来 保存 在 HDFS 上 的 聚 类 
中 心 文件 ,再 重新 写 入 新 的 聚 类 中 心 数 据 。 

(4) 获得 了 聚 类 中 心 后 .将 每 个 数据 点 划分 到 最 近 的 类 





图 6-26 ”K-means 的 主 控 程 序 
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中 心 。 

2. 朴素 贝 叶 斯 (Bayes) 分 类 算法 的 并 行 化 

根据 6. 5. 2 节 介绍 的 朴素 贝 叶 斯 (Bayes) 分 类 方法 ,该 方法 包含 了 模型 训练 和 分 类 测试 
两 个 过 程 。 在 并 行 化 实现 时 ,分 别 考虑 设计 其 MapReduce 的 处 理 过 程 ,两 个 过 程 之 间 通 过 
训练 好 的 模型 参数 文件 (存储 于 HDFS 中 ) 联 系 。 

可 以 看 出 来 ,在 模型 训练 过 程 中 需要 基于 训练 集 计 算 每 个 类 别 出 现 的 频次 、 所 有 属性 
(词汇 ) 在 各 个 类 别 中 出 现 的 频次 ,这 些 本 质 上 是 类 似 单词 统计 的 问题 。 

可 以 在 map 阶段 统计 这 两 类 的 频次 ,在 reduce 阶段 则 将 各 个 节点 的 统计 结果 进行 汇总 
即 可 。 

在 分 类 环节 ,由 于 对 每 个 待 分 类 的 样本 的 处 理 与 其 他 样本 没有 关系 ,因此 分 类 过 程 可 以 
让 每 个 map 节点 执行 部 分 样本 的 分 类 。 在 这 种 情况 下 ,map 函数 的 输出 就 是 样本 的 类 别 标 
签 , 因 此 就 无 须 再 编写 reduce 郴 数 了 。 


6.9 基于 阿里 云 大 数据 平台 的 数据 挖掘 实例 


目前 有 很 多 数据 挖掘 的 开源 系统 或 集成 平台 提供 了 对 经 典 算法 的 支持 ,可 以 很 快 地 来 
构建 数据 挖掘 应 用 。 根 据 不 同 的 实验 应 用 环境 来 进行 选择 ,如 对 于 个 人 台式 机 计算 环境 ,可 
以 选择 Weka。 它 既 支 持 GUI 的 操作 ,也 支持 基于 Java 的 开发 和 算法 调用 。 而 在 云 环境 
下 ,可 以 更 好 地 对 大 数据 分 析 进 行 支持 ,阿里 云 大 数据 平台 就 是 一 个 很 好 的 选择 。 这 些 系 统 
都 对 数据 挖掘 的 整个 过 程 提供 了 支持 ,包括 数据 预 处 理 ,特征 选择 、 分 类 、 聚 类 、 关 联 分 析 等 。 

在 这 里 构造 两 个 实例 ,分 别针 对 结构 化 数据 和 非 结 构 化 数据 的 分 析 挖掘 。 以 阿里 云 大 
数据 平台 提供 的 操作 环境 来 介绍 本 童 涉及 的 方法 。 


6.9.1 网 络 数据 流量 分 析 


KDDCUP 是 一 个 从 网 络 数据 包 中 提取 出 来 的 流量 特征 数据 集 ,是 通过 网 络 探 针 方式 采 
集 到 的 网 络 数 据 流 量 , 可 以 从 UCI 网 站 (http://kdd. ics. uci. edu/databases/kddcup99/ 
kddcup99. html) 下 载 。 这 种 数据 是 属于 图 1-2 中 提 到 的 网 络 探 针 获取 的 另 一 种 网 络 大 
数据 。 

在 该 数据 集中 ,由 人 工 对 每 个 网 络 流量 的 类 型 进行 了 标注 ,表示 流量 的 类 型 。 流 量 类 型 
有 正常 流量 及 10 多 种 入 侵 行为 产生 的 流量 ,该 数据 集 主要 是 用 于 对 网 络 层 入 侵 行为 的 检 
测 , 检 测 可 以 看 作 是 一 个 多 分 类 任务 ,是 利用 大 数据 技术 来 解决 安全 问题 的 一 个 典型 案例 。 

本 节选 择 其 中 的 3 种 类 型 的 流量 数据 ,保留 其 中 数值 型 的 特征 量 , 最 终 用 于 分 析 的 数据 
集中 共有 20 830 个 记录 。 每 个 记录 有 37 个 反映 网 络 连 接 和 传输 的 特征 ,有 src_bytes、dst_ 
bytes、wrong_fragment .urgent\hot num_failed_logins ,lnum_compromised,lroot_shell\lsu 
_attempted, Inum _root、lnum _file _creations 、lnum _shells、lnum _access _files、lnum _ 


outbound_cmds 、 count, srv_count, serror_rate, srv_serror_rate, rerror_rate, srv_rerror 





rate,same_srv_rate, diff_srv_rate,srv_diff_host_rate.dst_host_count .dst_host_srv_count 、 





dst_bost_same_srv_rate dst_host_diff_srv_rate\dst_host_same_src_port_rate ,dst_host_ 


srv_diff_host_rate dst_host_serror_rate dst_host_srv_serror_rate\ dst_host_rerror_rate、 
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dst_host_srv_rerror_rate \land logged_in \is_bost_login ,is_guest_login。 此 外 .还 有 一 个 类 
型 为 string 的 标签 字段 (label) 用 于 表明 每 个 记录 所 属 的 流量 类 型 。 流 量 类 型 有 正常 流量 
(Cnormal) 及 两 种 攻击 型 流量 (smurf .neptune) ,这 是 两 种 拒绝 服务 攻击 (DoS) ,它们 使 用 IP 
欺骗 ICMP 回复 等 方法 使 大 量 网 络 传输 充斥 目标 系统 来 实现 攻击 。 为 了 能 基于 该 数据 集 ， 
来 说 明 本 章 模型 的 应 用 ,这 里 模拟 了 两 个 实际 场景 ,一 是 对 发 现 攻 击 流量 ,二 是 发 现 流量 中 
的 共性 特征 。 

在 进行 这 两 个 场景 实验 之 前 ,需要 先 创建 MaxCompute 数据 表 ( 表 名 为 ids) ,并 将 数据 
集 上 传导 入 到 该 表 中 ,创建 表 的 SQL 语句 如 下 : 








create table if not exists ids ( 
src_bytes double, 
dst_bytes double, 
Wrong_fragment double, 
urgent double, 
hot double, 
num_failed_logins double, 
lnum_compromised double, 
lroot_shell double, 
lsu_attempted double, 
lnum_root double, 
lnum_file_creations double, 
lnum_shells double, 
lnum_access_files double, 
lnum_outbound_cmds double, 
count double, 
srv_count double, 
serror_rate double, 
srv_serror_rate double, 
rerror_rate double, 
srv_rerror_rate double, 
same_srv_rate double, 
diff_srv_rate double, 
srv_diff_ host_rate double, 
dst_host_count double, 
dst_host_srv_count double, 
dst_host_same srv_rate double, 
dst_bost_diff_srv_rate double, 
dst_host_same_src_port_rate double, 
dst_host_srv_diff host_rate double, 
dst_host_serror_ rate double, 
dst_host_srv_serror_rate double, 
dst_host_rerror_ rate double, 
dst_host_srv_rerror_rate double, 
land bigint, 
logged_in bigint, 
is_host_login bigint, 
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is_guest login bigint, 
label string 
); 


1. 场景 1 

在 第 一 个 应 用 场景 中 ,假设 要 对 某 个 流量 记录 进行 判断 ,是 否 为 正常 流量 ,或 者 是 两 种 
攻击 型 流量 ,从 而 为 网 络 安全 提供 支持 。 这 种 场景 就 是 一 种 典型 的 分 类 问题 。 类 别 标签 为 
normal、smurf ,neptune, 分 类 系统 的 特征 为 37 个 反映 流量 的 属性 。 按 照 前 面 介绍 的 分 类 方 
法 ,应 当 有 以 下 3 个 步骤 。 


(CD) 对 这 37 个 特征 进行 特征 选择 , 目的 是 选择 出 。 人 加 
对 于 分 类 系统 最 有 效 的 特征 。 为 此 ,在 阿里 云 大 数据 @ 一 9 
平台 中 ,构建 是 一 个 特征 选择 流程 ,如 图 6-27 所 示 , 流 
程 中 的 ids-1 节点 指定 了 表 ids, 即 是 包含 20 830 个 记 ea ©) 


录 、37 个 特征 、1 个 标签 的 流量 数据 集 。 第 二 个 节点 表 
示 对 输入 的 数据 进行 特征 选择 ,使 用 信息 增益 方法 ,而 
所 选择 的 特征 个 数 N 在 该 节点 的 参数 中 可 配置 。 最 终 
生成 一 个 降 维 以 后 的 流量 数据 集 , 记 录 个 数 仍 为 
20 830, 但 是 特征 个 数 为 N, 并 将 该 数据 集 保 存在 图 6-27 特征 选择 
ids_selected 表 中 。 

当 设 定 N=10, 也 就 是 选择 10 个 最 有 区 分 能 力 的 属性 时 ,通过 右 击 图 6-27 的 最 后 一 个 
节点 ,选择 查看 数据 ”选项 ,弹出 “数据 探查 ”窗口 ,如 图 6-28 所 示 。 选 择 出 来 的 10 个 属性 


是 count,srv_count、dst_host_srv_count, dst_host _count hot, Inum _access _files, src _ 





ids_selected-1 


©) 





bytes\lnum _file_creations、 dst_bytes、 lInum _compromised。 而 其 他 27 个 属性 ,如 src_ 
bytes、dst_bytes 都 没有 被 选中 。 


数据 近 查 - ds_selected - ( 仅 显示 前 一 百 条 ) x 
onta wurounta oslo svconia Mbostconta hela Pm scree esa sebyese mm ge mestonse Ge Pyles a mum_compy 
1 9 3 9 o 9 日 0 0 
10z 3 4 1 no 9 9 9 9 
143 4 3 29 no 0 o a o a 
1 7 4 3 后 9 0 
25 3 no 0o o o o o 


图 6-28 “数据 探查 "窗口 


(2) 选择 合适 的 分 类 方法 ,构建 分 类 器 ,对 分 类 器 进行 评估 。 这 个 步骤 中 ,分 类 器 的 构 
建 是 一 个 训练 过 程 , 分 类 器 的 评估 是 一 个 验证 过 程 ,都 需要 样本 ( 带 分 类 标签 的 数据 ) 。 相 应 
的 实验 流程 如 图 6-29 所 示 。 输 入 节点 表示 经 过 特征 选择 之 后 的 数据 集 ids_selected ,将 该 
数据 集 划 分 成 为 两 部 分 ,60% 用 于 训练 .40% 用 于 验证 ,图 中 的 拆 分 节点 就 定义 了 这 个 比例 
分 配 。 之 后 训练 部 分 的 数据 输入 给 相应 的 分 类 器 进行 模型 训练 ,在 分 类 测试 过 程 则 由 图 中 
的 预测 节点 完成 。 

此 外 ,为 了 对 各 种 不 同 的 方法 进行 性 能 比较 ,以 判断 哪个 更 适合 于 具体 应 用 背景 下 的 分 
类 ,在 流程 的 最 后 增加 了 分 类 评估 节点 。 
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图 6-29 流量 分 类 器 构建 与 评估 


为 了 更 好 地 进行 分 类 器 选择 ,这 里 对 分 类 方法 进行 了 评估 ,包括 逻辑 回归 分 类 器 、 朴 素 
贝 叶 斯 、 随 机 森林 和 KNN 方法 ,这 4 种 方法 在 现 有 针对 KDDCUP 入 侵 检测 的 研究 中 被 广 
泛 使 用 。 每 种 方法 所 需要 的 参数 在 相应 的 节点 中 可 以 配置 ,包括 KNN 中 的 天 值 等 。 

流程 中 的 “预测 ”节点 是 使 用 训练 好 的 模型 对 另外 的 40% 的 验证 流量 记录 进行 分 类 测 
试 ,而 评估 节点 则 是 将 预测 结果 (归属 类 别 ) 和 验证 流量 中 的 label 值 进行 比较 统计 。 可 以 看 
出 ,KNN 方法 实际 上 是 没有 分 类 器 的 构建 过 程 ,而 是 直接 将 60% 的 训练 流量 和 40% 的 验证 
流量 一 起 作为 输入 ,这 与 本 章 介绍 的 KNN 特点 是 一 致 的 。 

可 以 从 评估 节点 获得 最 终 的 分 类 性 能 ,有 多 种 性 能 评估 方法 ,图 6-30 是 混 清和 矩阵 评估 
方法 ,分 别 展示 了 逮 辑 回归 多 分 类 、 朴 素 贝 叶 斯 分 类 和 KNN 分 类 的 结果 。 其 他 Precision、 
Accuracy、F1 Kappa 等 统计 指标 也 可 以 在 该 节点 中 获得 。 需 要 注意 的 是 ,这 个 步骤 的 目的 
是 选择 一 个 合适 的 分 类 器 ,而 影响 分 类 器 性 能 的 因素 除了 分 类 器 本 身 参数 外 ,还 与 特征 选择 
中 的 特征 个 数 N 有 关 , 因 此 在 这 个 步骤 ,也 需要 返回 第 一 个 步骤 ,调整 N 的 值 , 再 最 终 得 到 
一 个 合适 的 N 和 分 类 器 。 在 选择 合适 的 分 类 器 时 ,还 需要 考虑 的 另 一 个 因素 是 模型 训练 和 
测试 的 时 间 复 杂 度 ,这 些 信息 在 流程 图 执行 完成 后 ,相应 节点 中 都 有 提示 信息 。 
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图 6-30 ”分 类 结果 的 混 清和 矩阵 


(3) 分 类 器 的 应 用 。 如 上 假设 根据 评估 结果 选择 逻辑 回归 多 分 类 器 作为 流量 分 类 系统 
的 分 类 器 ,那么 在 实际 的 分 类 中 .就 可 以 以 该 模型 作为 分 类 器 ,具体 流程 如 图 6-31 所 示 , 其 


第 6 章 。” 大 数据 分 析 的 模型 与 算法 ( 191 


中 “逻辑 回归 多 分 类 "节点 是 分 类 器 模型 ,ids_selected 是 需要 分 类 的 样本 ,当然 这 些 样本 的 
特征 应 当 与 第 一 个 步骤 选择 出 来 的 特征 一 样 。 预 测 节点 则 是 使 用 模型 对 没有 标签 的 样本 进 
行 分 类 ,分 类 结果 保存 在 输出 表 中 。 


和 雪 辑 昌明 多 分 类 … GC 同 ia selected 
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图 6-31 分 类 流程 


2. 场景 2 

针对 网 络 流量 的 第 二 个 应 用 是 流量 的 聚 类 分 析 , 其 应 用 场景 是 : 假设 某 个 大 学 的 网 络 
管理 员 从 本 校 的 网 络 出 口 处 获得 了 大 量 的 流量 数据 ,他 想 分 析 一 下 学 校 里 学 生 在 使 用 网 络 
时 主要 有 哪些 类 型 的 网 络 访问 。 这 种 情况 下 ,对 这 些 网 络 流量 进行 聚 类 ,每 个 类 别 所 代表 的 
就 是 学 生 的 典型 网 络 访问 行为 。 

为 此 ,构建 一 个 如 图 6-32 所 示 的 聚 类 分 析 过 程 。 
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图 6-32 流量 的 聚 类 分 析 过 程 


将 流量 数据 集 作 为 输入 ,采用 K-means 聚 类 方法 。 由 于 该 聚 类 方法 需要 参数 K 及 初始 
聚 类 中 心 。 在 阿里 云 大 数据 平台 中 ,K-means 提供 了 随机 选择 、 自 定义 初始 中 心 、FirstK 等 
5 种 初始 中 心 的 确定 方法 ,同时 也 提供 了 Cosine 和 欧式 空间 的 相似 度 计 算 方 法 。 在 本 应 用 
中 ,由 于 维度 比较 大 ,可 以 选择 Cosine 相似 度 。 图 6-33 是 相关 可 以 设 定 或 选择 的 配置 。 

聚 类 的 结果 是 对 每 个 流量 记录 打上 聚 类 标签 ,可 以 通过 输出 表 获 得 ,同时 也 可 以 通过 男 
一 个 输出 表 得 到 聚 类 中 心 .该 聚 类 中 心 可 认为 是 该 校 上 网 用 户 的 典型 代表 。 图 6-34 显示 了 
聚 类 结果 中 每 个 类 别 的 分 布 情况 。 当 然 ,由 于 聚 类 过 程 也 存在 多 个 可 以 调整 的 参数 ,因此 也 
可 以 像 分 类 一 样 对 聚 类 模型 进行 评估 。 图 6-34 中 同时 也 给 出 一 个 聚 类 结果 的 指标 参数 
Calinski-Harabasz 值 为 53. 395 327 654 694 69。 通 过 改变 K 的 值 .如 图 6-35 是 KK 二 5 时 得 
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距 毫 度量 方式 

Cosine $ 
质心 初始 化 方法 

Random 六 


最 大 迁 代 次 数 正 至 至 ,1.1000] 


1000 





图 6-33 设置 K-means 的 参数 


到 的 结果 ,可 以 看 到 Calinski-Harabasz 的 值 是 66. 205 278 395 260 02。 这 是 一 个 对 聚 类 评 
估 中 比较 重要 的 指标 参数 , 称 为 聚 类 有 效 性 指标 (Clustering Validation Indices)。Calinski- 
Harabasz 指标 (CH) 通 过 计算 类 中 各 点 与 类 中 心 的 距离 平方 和 来 度量 类 内 的 紧密 度 ,通过 
计算 各 类 中 心 点 与 数据 集中 心 点 距离 平方 和 来 度量 数据 集 的 分 离 度 ,CH 指标 由 分 离 度 与 
紧密 度 的 比值 得 到 。 因 此 .CH 越 大 代表 着 类 自身 越 紧密 ,类 与 类 之 间 越 分 散 , 即 更 优 的 聚 
类 结果 。 在 本 例 中 ,K=5 的 聚 类 结果 好 于 KK 二 3 的 结果 ,可 能 是 由 于 smurf neptune 这 两 
种 攻击 方法 的 相似 性 ,导致 K==3 时 没有 很 好 地 分 开 , 而 分 的 类 数 适 当 增 加 时 ,能 使 得 某 个 





攻击 类 中 的 样本 更 纯 。 
村 类 楼 型 评 估 本 
总 记录 数 20830 
票 类 中 心 数 3 
Calinski Harabasz 指标 53.39532765469469 
DGFE 
更 斗 图 切换 


2 36.98% — ee 














图 6-34 K=3 的 聚 类 评估 


聚 类 有 效 性 指标 提供 了 一 种 选择 聚 类 参数 的 方法 ,其 他 常用 的 聚 类 有 效 性 指标 还 有 
Davies-Bouldin(DB) 、Xie-Beni 等 。 但 由 于 各 种 指标 的 计算 方法 不 同 , 在 对 聚 类 结果 评估 方 
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面 也 不 是 完全 准确 。 
要 类 模型 评估 本 
总 记录 数 20830 
票 类 中 心 数 5 
Calinski Harabasz 指标 66.20527839526002 


GFE 


5: 18.03% 上 





[4.835% 
/161% 


4:3633% 一 一 








图 6-35 K=5 的 聚 类 评估 


6.9.2 网 络 论坛 话题 分 析 


第 二 个 应 用 场景 是 关于 网 络 论坛 的 话题 分 析 问 题 。 

网 络 论坛 是 网 络 用 户 发 表 个 人 意见 的 场所 ,论坛 中 所 蕴含 的 话题 不 同 于 单个 的 帖子 , 进 
行 话题 分 析 能 够 更 清楚 地 查看 论坛 用 户 所 关注 的 主题 。 在 网 络 与 情 监测 .证 券 市 场 的 投资 
者 行为 分 析 中 ,通常 都 需要 进行 话题 的 分 析 。 

话题 分 析 的 数据 来 源 是 论坛 中 用 户 所 发 表 的 帖子 ,处 理 结果 的 输出 是 话题 的 表示 。 由 
于 帖子 都 是 一 些 文本 信息 ,因此 话题 分 析 是 一 个 典型 的 文本 处 理 、 分 析 与 建 模 过 程 ,这 里 所 
涉及 模型 和 方法 除了 本 章 的 文本 特征 、 文 本 模型 外 ,还 需要 用 到 第 4 章 的 文本 处 理 方法 。 

为 了 进行 论坛 话题 分 析 , 采 用 了 帖子 获取 ,文本 预 处 理 及 LDA 话题 建 模 三 大 步骤 。 

(1) 采用 网 络 怜 虫 技术 从 指定 的 网 络 论坛 上 获得 2012-01-01 到 2012-01-16 期 间 , 用 户 
所 发 表 的 帖子 。 但 是 论坛 帖子 中 ,有 很 多 是 用 户 的 一 些 简单 回帖 ,并 不 会 影响 话题 的 表达 。 
因此 ,只 保留 内 容 足 够 长 的 帖子 ,这 样 所 得 到 的 帖子 记录 共有 5607 个 记录 ,每 个 记录 包含 两 
个 字段 , 即 upd( 帖 子 发 表 时 间 ) 和 txt( 帖 子 内 容 ) ,该 数据 集 可 以 在 https://github. com/ 
jpzeng/ data-book 中 下 载 。 

(2) 可 以 利用 阿里 云 大 数据 平台 提供 的 相关 文本 分 析 组 件 进行 话题 分 析 。 为 此 构建 了 
图 6-36 所 示 的 网 络 论坛 话题 分 析 流程 。 其 中 的 第 一 个 节点 就 是 包含 5607 个 帖子 内 容 的 数 
据 集 。 由 于 后 续 组 件 的 要 求 ,后 面 增加 了 “增加 序列 号 ”和 “类 型 转换 ”两 个 处 理 过 程 。 其 中 
“增加 序列 号 ”是 为 每 个 帖子 增加 一 个 数值 标识 来 唯一 地 表示 帖子 ,这 是 因为 词 频 统计 组 件 
中 需要 对 每 个 文档 词汇 进行 统计 ,需要 有 一 个 唯一 标识 文档 记录 的 数值 (bigint 类 型 , 列 名 
为 docid)。 但 是 在 词 频 统计 组 件 中 要 求 文档 标识 列 类 型 为 string, 因 此 在 “类 型 转换 ”将 
docid 的 类 型 转换 为 string。 
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人 forum_txt-1 四 
0 


一 


© 





增加 序号 列 -1 


© stoplist-2 [©) 
Split Word-1 四 We 


in ©) 


间 频 统计 -1 ”四 ) 
i 


= ©) 


) 









PLDA-I 加 
topicWord-1 ©@) 
co- 一 0- 一 0- 一 、 
SQL 脚本 -1 ©) 


— 


topic_word_dist-2 加 


图 6-36 ”网络 论坛 话题 分 析 流程 


(3) 需要 对 这 些 帖 子 文本 进行 词汇 的 切 分 ,也 就 是 图 中 的 Split Word 节点 。 之 后 需要 
对 切 分 结果 进行 停 用 词 过 滤 , 指 定 了 一 个 自 定义 的 停 用 词 列表 ,凡是 包含 在 该 列表 中 的 词汇 
后 会 被 删除 掉 。 该 停 用 词 列表 中 包含 并且”、“ 不 但 "等 虚词 ,格式 上 是 每 个 词汇 一 行 ,可 以 
从 https://github. com/jpzeng/data-book 下 载 。 

根据 LDA 模型 对 输入 的 要 求 , 需 要 统计 每 个 帖子 中 每 个 词汇 出 现 的 次 数 ,生成 (docid， 
wordid，count) 的 数据 , 即 词 频 统计 。 之 后 ,将 该 词 频数 据 转换 成 为 一 种 称 为 三 元 组 表示 的 
形式 ,该 形式 可 以 直接 输入 给 LDA。 该 三 元 组 的 形式 如 图 6-37 所 示 , 图 中 的 key_value 是 
一 系列 的 key:value 的 形式 ,其 中 key 就 是 词汇 wordid ,value 就 是 这 个 词 在 文档 docid 中 出 
现 的 次 数 。 由 于 词汇 空间 较 大 ,图 中 只 显示 部 分 词汇 和 部 分 文档 的 结果 。 

话题 分 析 流 程 图 中 的 PLDA 就 是 对 输入 信息 进行 话题 建 模 ,采用 的 是 LDA 模型 。 在 
前 面 的 介绍 LDA 模型 建 模 时 ,需要 指定 若干 参数 ,包括 话题 个 数 玉 、 文 档 话题 分 布 的 先 验 
Dirichlet 参数 .话题 词汇 分 布 的 先 验 Dirichlet 参数 .以 及 模型 训练 的 迭代 次 数 和 收敛 条 
件 等 。 
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docida key_valuea 


443 329-1,382-1,398-1.546:1.689:1,1070-1,1314.2,1339-1,1386-1,1404:1,1405:1,1414:1,1481-1,1482- 
213 9-1,123:3,329-2,53422.674:22,777-1,111122,1239-1,1241-1,1251-1,1257-:2,1263:1,1270:1,1281:1,121 
446 382-1,455:4,534:1,1239:1,1241-1,1257-1,1270-1,1339-1,1402:1,1435-1,1485:1,1511-2,1523:1,155 
216 1330:1,1369:1,1402:1,1441:1,1446:2,1449-1,1456:1,1457:1,1459-1,1461-1,1478-1,1497:1,1503:1 
449 382:1,455;4,534:1,1239:1,1241:1,1257:1,1270:1,1339:1,1402:1,1435:1,1485:1,1511-2,1523:1,155 
219 1-1,8:5,10:1,11:1,123:8,162-5.243:1,329.2.534:2.586-1.674:1,697:1,777-2,798:2.854:1,1099:1,110¢ 
451 2:2,9:2,11:1,1102,114:4,117:1,122:1,123:1,179:2,187:1,240:1,242:1.288:1,329-1,368:2,369:2,372: 
221 123:1,4210:1,1291:1.1303:1,1305:1,1310:2,1314:2,1315:1,1333:1,1391-1,1407:1,1416:1,1417:2,1 


图 6-37 文档 的 词 频 三 元 组 


PLDA 节点 的 输出 提供 了 pWI12Z)、p(ZIW)、p(D12Z)、p(ZI1D)、P(Z) 等 运算 结果 。 这 
些 结果 反映 了 不 同 的 价值 。 例 如 ,pCW12) 表 示 某 个 话题 在 词汇 空间 中 的 分 布 ,如 图 6-38 是 
K==5 时 ,各 个 话题 在 词汇 空间 上 的 分 布 PCW|2) ,这 里 只 列 出 了 部 分 词汇 wordid。 而 p(ZIW) 
是 相同 模型 下 ,词汇 wordid 在 话题 空间 上 的 分 布 ,如 图 6-39 所 示 。p(D12) 则 表示 给 定 话 
题 下 的 帖子 分 布 ,p(Z1D) 表 示 给 定 帖子 中 的 话题 分 布 ,P(Z) 表 示 整 个 文档 集中 的 话题 分 
布 , 它 可 以 认为 是 话题 的 分 量 。 


wordde spic0v oplc_1= tplc_2<= pk 1 ioplc_ 4a 
位 0.00042051985514362996 2.8508270534364724e-8 = 1.4623615911313036e-8 1.8602733783345866e-8 0.0007374309338284688 
49 0.00014018885899210728 。 2.85082705343647248-8 1.4623615911313036e.8 1.8602733783345866e-8 3.686970320626313e.8 
95 0.00007010610995422661 2.85082705343647240-8 14623615911313036e-8 1.8602733783345866e-8 3.686970320626313e-8 
06 0.00007010610995422661 2.8508270534364724e-8 = 1.4623615911313036e-6 1.8602733783345866e-8 3.686970320626313e-8 
14 0.000023384277262306. 2.8508270534364724e-8 1.4523615911313036e-8 1.9602733783345866e-8 3.686970320626313e-8 
19 0.000023384277262306,. 2.85082705343647240-8 。。 1.4623615911313036e.8 1.8602733783345866e-8 3.686970320626313e.8 
22 0.000023384277262306. 2.85082705343647240-8 。。 14623615911313036e-6 1.8602733783345866e-8 3686970320626313e-8 
29 0.000023384277262306 Cc 285082705343647248-8 =c14623615911313036e-8 1.8602733783345866e-8 3.696970320626313e-8 
35 0.000023384277262306. 2.85082705343647240-8 C1.4623615911313036e-8 1.8602733783345866e-8 3.686970320626313e-8 
3 0.000023384277262306. 2.8508270534364724e-8 =c14623615911313036e-8 1.8602733783345866e-8 3686970320626313e-8 
59 0:000023384277262306... 2.8508270534364724e-8 =c1.4623615911313036e-8 1.8602733783345866e-8 3.686970320626313e-8 
7 0.000023384277262306 2.8508270534364724e-8 =c14623615911313036e-8 1.8602733783345866e-8 3.686970320626313e-8 
84 0.000023384277262306 285082705343647248-8 14623615911313036e-8 18602733783345866e-8 3.686970320626313e-9 


图 6-38 pCW12) 分 布 情况 


在 这 些 参数 中 ,对 于 话题 分 布 来 说 ,最 主要 的 就 是 p(W12Z) 和 P(Z)。 从 图 6-38 可 以 看 
出 ,话题 在 词汇 空间 上 的 分 布 中 ,很 多 词汇 出 现 的 概率 值 可 能 非常 小 ,这 些 词汇 对 于 话题 的 
表达 能 力 影响 不 大 ,因此 在 实际 中 进行 话题 识别 时 ,通常 只 需要 选择 概率 值 比较 大 的 若干 个 
词汇 作为 话题 的 描述 。 为 此 ,在 图 6-36 网 络 论坛 话题 分 析 流 程 中 ,增加 了 一 个 SQL 脚本 处 
理 节点 ,该 节点 中 的 SQL 语句 是 : 


select wordid, topic_0 from $ {t1} where topic_0 > 0.00001 


表示 将 话题 概率 值 大 于 0. 00001 的 词汇 选择 出 来 ,作为 最 终 的 话题 描述 ,该 语句 中 
$ {tl) 是 上 一 个 节点 , 即 PLDA 生成 的 数据 表 . 是 动态 表 名 ,流程 执行 时 会 自动 匹配 。 
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(4) 在 流程 执行 完毕 后 ,可 以 查看 每 个 节点 的 执行 时 间 代价 。 这 里 比较 关心 的 是 LDA 
模型 的 训练 过 程 , 从 图 6-40 可 以 看 出 ,针对 5607 个 帖子 ,LDA 话题 建 模 时 间 不 到 2 分 钟 ， 


iopic_0< 
020000053457008546 
5271634151942208e-7 
4.98765536026628e-7 
4.861553079493146e-7 
4.859178326045825e-7 
4.842693710456548e-7 
4.821666491214844e-7 
4752902820769414e-7 
3.4855806875496944， 
2.906994776708566e-7 
2.500012808271134e-7 


是 很 快 就 完成 的 。 


‘topic_12 


0.19999791955200202 
5.271565225033256e-7 
0.029926039637389327 
4.861489514416963e-7 
4.859114792019676e-7 
4.842630391967662e-7 
4.821603447658016e-7 
4.752840676301391e-7 
0.10038375981911052 
0.012500204796316383 
2.499980120464991e-7 


图 6-39 


topic_ 2< 


020000497339395512 
5271751150907016e-7 
4.987766056588739e-7 
4.861660977094016e-7 
4.859286170941275e-7 
4.842801189491449e-7 
4.82177350357038e-7 
47530083069799196e-7 
3.485658046736702e-7 
0.15320231553794425 
0.05950187539701953 


p(Z1IW) 分 布 情况 


topic_3< 


0.20000295187672307 
5.271697867553038e-7 
0.023941533860686884 
0.025280867722209267 
0.000486409629356546 
0.0033904108443990 
0.00434003446393886 
0.014259356096227327 
3 .4856228160237506， 
2.9070299121035e-7 
0.006500361868465651 





启 
刘 
疯 


党 


节点 名 称 : PLDA-1 
算法 名 称 : PLDA 
结 率 时 间 - 2016-08-20 09225:45 

上 Fo 一 





运行 时 | 
Re” 一 
图 6-40 ”LDA 的 训练 时 间 代价 
特征 选择 和 特征 提取 有 什么 区 别 ? 


‘opic_ 4< 


0.1999936716807967 
0.999995210418967 

4 987484212090994e-7 
4 .861386258436254e-7 
4 859011586477066e-7 
4 842527536546735e-7 
4.821501038840491e-7 
475273972797604e-7 
0.1662568421621615 
0.000290980192008366 
0.07399808984226856 


描述 信息 增益 的 计算 过 程 ,分 析 信 息 增益 进行 特征 选择 所 存在 的 问题 。 
分 析 TF-IDF 在 实际 应 用 中 可 能 存在 的 问题 。 
N-gram 模型 有 哪些 用 途 ? 
编写 程序 实现 K-means 算法 ,并 写 出 其 对 应 的 MapReduce 下 的 并 行 实现 。 
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随 着 各 种 网 络 应 用 的 流行 ,用户 的 网 络 行为 信息 不 断 累 积 , 这 类 信息 经 过 恶意 收集 、 组 
合 , 关 联 、 挖 掘 ,可 能 会 导致 个 人 隐私 泄露 。 此 外 ,大 数据 时 代 , 政 府 部 门 等 相关 机 构 极 力 推 
动 各 种 数据 的 共享 ,没有 经 过 处 理 的 数据 也 容易 产生 隐私 泄露 。 大 数据 隐私 保护 由 此 成 为 
大 数据 安全 的 一 个 重要 课题 ,各 种 隐私 保护 方法 相继 产生 。 但 是 ,隐私 保护 力度 过 大 又 会 违 
背 大 数据 技术 应 用 的 初衷 ,使 得 数据 的 可 用 性 大 大 降低 。 因 此 ,在 大 数据 隐私 保护 研究 中 ， 
确定 并 实施 一 种 度量 隐私 保护 力度 和 数据 可 用 性 的 指标 也 是 非常 必要 的 。 本 章 主要 介绍 与 
大 数据 隐私 保护 相关 的 技术 ,并 针对 互联 网 大 数据 的 典型 数据 进行 了 隐私 保护 方面 的 叙述 。 


7.1 隐私 保护 概述 


关于 什么 是 隐私 ,目前 并 没有 一 个 统一 的 定义 。 可 以 认为 ,隐私 就 是 个 人 、 机 构 等 实体 
不 愿意 被 外 部 世界 知晓 的 信息 。 但 有 时 也 把 机 构 的 隐私 认为 是 商业 机 密 。 通 常人 们 所 说 的 
隐私 一 般 都 是 指 敏 感 数据 ,如 个 人 的 薪资 .病人 的 患 病 记 录 、 公 司 的 财务 信息 等 。 但 当 针对 
不 同 的 数据 所 有 者 时 ,隐私 的 定义 也 会 存在 差别 。 例 如 ,保守 的 病人 会 视 疾病 信息 为 隐私 ， 
而 致力 于 倡导 人 们 正确 看 待 某 些 疾病 的 患者 却 不 视 之 为 隐私 。 

当今 大 数据 环境 下 ,存在 多 种 数据 形式 ,攻击 者 可 以 采集 到 大 量 的 数据 。 典 型 的 有 车 辆 
轨迹 数据 ,社交 网 络 中 的 用 户 关 系数 据 等 ,由 此 产生 的 隐私 泄露 问题 也 很 多 。 美 国 总 统 科学 
技术 顾问 委员 会 的 报告 中 陈述 了 大 数据 时 代 所 带 来 的 隐私 问题 ,包括 但 不 限于 以 下 几 种 。 

(1) 沿途 电线 杆 上 装 设 监听 装置 ,用 于 侦 测 过 往 车 辆 正在 收听 的 电台 信息 ,并 向 广告 投 
放 商 进行 销售 。 

(2) 车 辆 号 牌 自动 识别 技术 可 以 在 检测 到 过 期 号 牌 时 发 出 警报 ,但 该 技术 在 民用 领域 
可 借助 云 数据 平台 将 收集 到 的 信息 用 于 多 种 用 途 。 

(3) 商品 的 价格 歧视 . 即 同一 件 商 品 对 不 同人 有 着 不 同 的 定价 ,将 更 为 普遍 ,商品 定价 
透明 性 降低 。 

(4) 匿名 书籍 、 杂 文 、 网 络 文稿 的 作者 被 人 肉 搜索 。 

(5) 通过 社交 媒体 中 用 户 留 下 的 痕迹 ,攻击 者 可 以 识别 他 的 朋友 关系 。 

(6) 网 络 借贷 机 构 根 据 用 户 的 社交 网 络 信息 来 对 其 进行 授信 判断 。 
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(7) 脸 部 颜色 变化 可 以 反映 心率 ,进而 推断 健康 和 情绪 状态 。 

但 不 管 怎么 样 ,隐私 泄露 的 最 终 效果 都 是 类 似 的 ,存在 正 反 两 方面 的 效应 。 一 是 泄露 的 
信息 可 能 换 来 对 个 人 和 社会 有 价值 的 信息 ,如 公开 自己 的 患 病 信 息 ,可 能 得 到 更 多 人 有 针对 
性 的 治疗 建议 ; 同时 越 多 人 共享 此 类 信息 ,对 数据 的 挖掘 分 析 就 会 更 加 准确 ,从 而 可 能 对 制 
定 相 关 政 策 有 所 帮助 。 二 是 泄露 的 信息 给 个 人 带 来 各 种 麻烦 , 某 些 患 病 记 录 可 能 给 求职 带 
来 很 大 障碍 。 并 且 这 种 效应 会 随 着 更 多 的 共享 数据 而 越发 放大 ,攻击 者 通过 搜索 并 挖掘 海 
量 的 社交 网 络 数据 中 与 特定 用 户 相关 的 信息 ,可 能 推出 用 户 的 薪资 水 平 , 进 而 通过 骚扰 电 
话 , 垃 圾 邮件 、 手 机 应 用 推广 链接 等 方式 推销 信用 卡 、 房 产 等 。 

隐私 保护 方法 的 研究 中 ,早期 有 学 者 认为 姓名 这 类 几乎 能 唯一 识别 个 体 的 属性 是 隐私 
泄露 的 原因 ,并 称 为 标识 符 或 显 标识 符 。 然 而 , Samarati 等 人 发 现 , 即 使 是 去 除数 据 集 里 所 
有 的 标识 符 之 后 ,还 是 不 能 避免 隐私 泄露 ,这 是 因为 标识 符 之 外 的 属性 的 组 合 也 能 唯一 识别 
个 体 , 这 种 属性 的 组 合 称 为 准 标识 符 。 例 如 ,在 攻击 者 所 关注 的 个 体 范围 内 ,符合 { 男 .23、 计 
算 机 技术 ,长 跑 和 游泳 } 的 个 体 可 能 只 有 一 个 , 那 就 是 Wendt, 于 是 Wendt 的 隐私 就 泄露 了 ， 
尽管 数据 集中 并 没有 公开 他 的 姓名 。 通 过 准 标识 符 重新 识别 出 个 体 的 过 程 称 为 个 体 的 再 识 
别 。 依 照 该 思路 ,如 果 每 一 个 形 如 { 男 、23、 计 算 机 技术 ,长 跑 和 游泳 } 的 属性 值 序列 都 重复 至 
少 & 次 ,那么 个 体 隐私 泄露 的 概率 就 只 有 A& 分 之 一 ,而 Samarati 等 人 提出 的 匿名 隐私 保护 
方法 正 是 这 样 做 的 。 

随 着 众多 合法 的 大 数据 应 用 技术 的 发 展 ,匿名 隐私 保护 越 来 越 容易 被 攻破 ; 当 数 据 体 
量 增 长 及 多 样 性 增 大 时 ,成 功 再 识别 个 体 的 概率 将 大 大 增加 。 这 些 都 对 传统 的 隐私 保护 手 
段 提出 了 严峻 的 挑战 。 

有 些 数据 的 发 布 是 为 了 数据 研究 人 员 完 成 特定 的 分 析 目 标 ,如 商业 咨询 机 构 需 要 对 大 
量 的 个 人 与 企业 数据 进行 分 析 , 从 而 得 出 与 企业 相关 性 的 结论 。 为 防止 隐私 泄露 咨询 机 构 
得 到 的 可 能 是 随机 扰动 过 的 数据 库 , 而 不 是 原始 的 精确 数据 。 通 过 在 原始 数据 中 添加 随机 
噪声 ,可 以 在 不 破坏 数据 本 身 的 统计 性 质 的 条 件 下 , 尽 可 能 保护 隐私 。 在 统计 数据 库 中 添加 
随机 噪声 ,是 否 能 确保 隐私 不 被 泄露 呢 ? Dwork 发 现 ,如 果 某 个 记录 的 变化 显著 影响 了 统 
计数 据 库 的 计算 结果 ,那么 隐私 也 就 泄露 了 ,因此 Dwork 提出 了 差分 隐私 ,来 应 对 这 种 类 型 


7.2 隐私 保护 模型 


从 Samarati 等 人 提出 大 匿 名 至 今 , 匿 名 隐私 保护 模型 已 经 有 了 10 多 年 的 发 展 ,先后 有 
学 者 提出 上 多 元 Ce) -匿名 邻近 ,or 恒定 等 模型 ,同时 期 产生 和 发 展 的 还 有 随机 扰动 模 
型 .差分 隐私 保护 模型 等 。 


7.2.1 隐私 进 露 场景 


若 要 对 形 如 表 7-1 的 医疗 数据 集 进行 隐私 保护 ,以 往 的 做 法 是 “去 身份 化 ”, 即 去 掉 能 直 
接 反 映 个 体 身 份 的 属性 ,包括 姓名 、 家 庭 住 址 、 联 系 方式 等 .得 到 表 7-2 的 结果 数据 集 。 
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表 7-1 原始 医疗 数据 集 



























































SSN Name | Ethnicity| Date Of Birth Sex ZF Marital Status Problem 
12345 Mary asian 09/27/64 female 02139 divorced hypertension 

23456 Jenny asian 09/30/64 female 02139 divorced obesity 

34567 Zeng asian 04/18/64 male 02139 married chest pain 

45678 Wendt asian 04/15/64 male 02139 married obesity 

56789 Nico black 03/13/63 male 02138 married hypertension 

67890 Paul black 03/18/63 male 02138 married shortness of breath 
78901 Tara black 09/13/64 female 02141 married shortness of breath 
89012 |Katherine| black 09/07/64 female 02141 married obesity 

90123 Zhang white 05/14/61 male 02138 single chest pain 

01234 Marcial white 05/08/61 male 02138 single obesity 

11111 Carlson white 09/15/61 female 02142 widow shortness of breath 


表 7-2 去 身份 化 的 医疗 数据 集 


















































Ethnicity Date Of Birth Sex ZIP Marital Status Problem 
asian 09/27/64 female 02139 divorced hypertension 
asian 09/30/64 female 02139 divorced obesity 
asian 04/18/64 male 02139 married chest pain 
asian 04/15/64 male 02139 married obesity 
black 03/13/63 male 02138 married |hypertension 
black 03/18/63 male 02138 married shortness of breath 
black 09/13/64 female 02141 married shortness of breath 
black 09/07/64 female 02141 married obesity 
white 05/14/61 male 02138 single chest pain 
white 05/08/61 male 02138 single obesity 
white 09/15/61 female 02142 widow shortness of breath 


去 身份 化 的 数据 集 仅仅 是 看 起 来 保护 了 隐私 ,但 是 这 种 做 法 并 没有 解决 隐私 保护 问题 。 
如 果 在 某 个 外 部 数据 集 里 同时 出 现 了 显 标识 符 以 及 邮编 .生日 种族、 性 别 、 婚 姻 状 况 等 属 
性 , 则 简单 的 自然 连接 操作 就 可 以 使 攻击 者 推断 出 每 条 记录 对 应 的 个 体 , 即 完成 了 个 体 的 再 
识别 。 观 察 可 知 ,Carlson 在 属性 集 {Date Of Birth，Sex, ZIP} 下 的 值 序列 为 {09/15/61， 
female, 02142) 且 唯一 ,因此 只 要 Carlson 出 现在 形 如 表 7-2 的 名 单 中 ,攻击 者 就 可 以 通过 
自然 连接 表 7-1 与 表 7-2 对 应 的 数据 集 ,对 Carlson 进行 再 识别 。 

攻击 者 如 果 成 功 再 识别 Carlson, 就 能 得 出 结论 : Carlson 在 医院 的 诊断 结果 为 
“shortness of breath”, 即 找 出 了 个 体 与 敏感 属性 之 间 的 关系 ,因此 侵害 了 Carlson 的 个 人 隐 
私 。 在 对 54805 名 投票 人 进行 类 似 的 逐一 分 析 后 ,Samarati 发 现 能 够 成 功 再 识别 69% 的 个 
体 , 所 以 诸如 以 上 的 数据 发 布 存在 较为 严重 的 隐私 泄露 问题 。 


7.2.2 k- 匿 名 及 其 演化 


可 以 看 出 ,造成 隐私 泄露 的 原因 就 是 形 如 {Date Of Birth, Sex, ZIP) 的 多 个 数据 集 的 公 
共 属 性 对 应 的 值 序列 可 以 唯一 确定 个 体 。 因 此 ,可 以 先 定义 准 标识 符 的 概念 。 准 标识 符 就 
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是 数据 集 所 包含 的 属性 中 ,能 够 与 外 部 数据 集 产生 连接 操作 的 属性 或 属性 集 , 即 与 外 部 数据 
集 的 相同 属性 。 

Sweeney 给 出 了 准 标 识 符 的 一 个 形式 化 的 定义 。 

【定义 7.1】 设 全 部 个 体 组 成 的 全 集 为 U= {pi1,ps，…}) ,数据 集 T(Ai,Az，…,A,) 包 含 
Ai ,A:,…,A, 这 个 属性 , 且 每 个 元 组 都 对 应 唯一 的 个 体 , 个 体 p; 在 其 中 任意 & 个 属性 
A;,…,A; 上 的 值 序列 称 为 p; 在 属性 集 {A;,…,A;} 上 的 投影 , 记 为 pi[{Ai,…,Aj}]。f.。: 
U 一 工 是 定义 在 可 上 的 函数 ,给 定 U 中 的 个 体 pi, 若 数据 集 T 中 有 其 对 应 的 元 组 , 则 函数 f。 
有 返回 值 p;[{Al,…,A,)], 简 记 为 p;。fs:T>U'(CSU) 是 定义 在 TT 上 的 函数 ,车 工 中 元 组 
4 的 值 序列 4[{A;,…,A;)j 能 唯一 确定 个 体 , 则 fs 返回 它 所 对 应 的 个 体 p;。 准 标识 符 Qr 
是 不 含 显 标识 符 和 敏感 属性 的 最 大 属性 子 集 {A;,… ,A;} ,满足 p;EU ,使 得 : 

fi(fi (pIOLQrI) = p; 性 

直观 上 ,可 以 求 出 工 在 属性 集 Qr 上 的 投影 了 [Qr] ,如果 TLQr] 中 至 少 有 一 个 元 组 不 
与 其 他 任何 元 组 重复 , 则 该 元 组 对 应 的 个 体 将 被 唯一 确定 。 反 之 ,如 果 TLQr] 中 所 有 的 元 
组 都 有 与 之 对 应 的 重复 元 组 , 则 攻击 者 将 无 法 唯一 确定 其 中 任意 元 组 对 应 的 个 体 ,也 就 无 法 
找 出 个 体 与 敏感 属性 之 间 的 关系 ,因此 保护 了 对 敏感 属性 的 隐私 要 求 。 依 照 该 思路 ,若是 
T[Qr] 中 每 个 元 组 都 至 少 重复 上 次 ,那么 Qr 下 的 任意 一 个 值 序列 都 将 对 应 至 少 & 名 个 体 ， 


攻击 者 成 功 再 识别 的 概率 将 只 有 十 。 这 样 ,就 可 以 得 到 基本 的 匿名 数据 发 布 要 求 : 发 布 


的 数据 必须 满足 准 标识 符 下 的 每 一 个 值 序列 至 少 对 应 & 名 个 体 。 而 大 匿 名 的 定义 采用 了 子 
集 材 盖 的 方法 ,现在 看 来 可 能 不 太 简 洁 , 但 它 在 之 后 大 匿名 的 演化 过 程 中 却 发 挥 了 至 关 重 
要 的 可 扩展 的 特性 。 这 里 先 直接 给 出 入 匿名 的 定义 ,在 后 面 的 匿名 模型 中 会 逐步 介绍 这 种 
可 扩展 性 。 

【定义 7.2】 数据 集 T(A,A:.….,A,) 满 足 久 匿名 , 当 且 仅 当 对 准 标识 符 Qr 的 任意 子 
集 QSQr ,投影 集 TLQ] 中 每 个 元 组 都 至 少 出 现 了 A& 次 。 

那么 ,给 定 一 个 不 满足 上 匿名 的 原始 数据 集 , 要 怎样 把 它 变 为 匿名 数据 集 呢 ? 
Samarati 使 用 了 泛 化 的 方法 。 由 表 7-1 可 知 ,Carlson 和 Tara 的 邮编 分 别 是 02142 和 
02141, 若 在 发 布 数据 时 ,将 邮编 最 后 一 位 设 定 为 默认 值 , 则 两 人 的 邮编 就 变 成 了 0214* , 因 
此 无 法 区 分 两 者 的 邮编 。 而 对 于 Carlson 和 Zhang 来 说 ,只 将 邮编 最 后 一 位 设 定 为 默认 , 仍 
然 可 以 辨别 出 两 者 ,因为 Carlson 的 邮编 是 0214 * ,而 Zhang 的 邮编 是 0213 * ,为 使 
Carlson 和 Zhang 的 邮编 不 可 辨认 ,就 需要 进行 一 次 额外 的 默认 操作 ,如 可 以 将 他 们 的 邮编 
变 为 021 *x 。 这 就 是 泛 化 的 基本 思想 。 

属性 A 上 的 泛 化 操作 是 定义 在 A 的 值 域 上 的 函数 /4:D 一 Di, 其 中 DD 是 属性 A 的 值 
域 ,Di 是 函数 f4 的 值 域 。 该 函数 将 属性 A 下 的 值 映射 到 预定 义 的 值 ,如 将 邮编 02142 映 
射 到 0214x ,这 称 为 一 次 泛 化 操作 。 用 符号 “三 。” 来 表示 域 之 间 的 泛 化 关系 ,而 用 符号 
“<v "来 表示 值 之 间 的 泛 化 关系 ,如 Do 泛 化 到 Di 记 作 Do 志 pD1, 而 02142 泛 化 到 0214* 记 
作 02142 三 v0214 * 。 连 续 的 泛 化 操作 可 类 似 定义 为 复合 函数 的 形式 , 即 

fh AD = Di = =D, (7-2) 

其 中 ,Di( 委 未 刀 是 f%#? 的 值 域 和 的 定义 域 。 

例如 ,连续 将 邮编 02142 泛 化 到 0214 * 一 021 xx 一 02 xxx ->0 xxxx 一 xxxxx 。 这 种 
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预定 义 的 泛 化 操作 应 满足 一 定 的 规则 , 即 “ 域 汉化 层次 ”DGH) 和 " 值 泛 化 层次 ”VGH) ,如 
图 7-1 和 图 7-2 所 示 。 
Zs={021+*} M2 = {not_released} 
Z1={0213*,0214*} El = {person} MI = {once_married,never_married} 
Zo={02138,02139,02141,02142} Eu = {asian,black,white} Mo = {married,divorced, widow,single} 


图 7-1 域 泛 化 层次 


Li not_released 


person 


| 


02138 02139 02141 02142 asian black white married divorced widow single 
图 7-2 值 泛 化 层次 


在 执行 泛 化 操作 时 ,只 需 按照 预定 义 的 域 泛 化 层次 或 值 泛 化 层次 逐 层 泛 化 即 可 。 把 泛 
化 层次 中 相 邻 两 层 之 间 的 泛 化 关系 称 为 直接 泛 化 关系 ,而 把 非 相 邻 层 之 间 的 泛 化 关系 称 为 
间接 泛 化 关系 或 隐 含 泛 化 关系 ,如 邮编 02138 可 以 直接 泛 化 到 0213 * ,并 间接 ( 隐 含 ) 泛 化 
到 021 xx 。 

为 使 原始 数据 集 满 足 匿名 ,仅仅 对 一 个 属性 进行 汉化 显然 是 不 够 的 ,可 能 需要 同时 
在 多 个 属性 上 执行 泛 化 操作 。 考 虑 二 维 的 情况 。 对 形 如 图 7-3 中 包含 两 个 属性 的 原始 数据 
集 PT, 我 们 规定 一 次 泛 化 操作 是 将 整个 属性 列 都 进行 一 次 直接 泛 化 ,例如 ,GTo 是 对 种 
族 属性 进行 一 次 泛 化 的 结果 集 ,GTr,u 是 对 种 族 和 邮编 各 进行 一 次 泛 化 的 结果 集 。 观 察 可 
知 ,GTn 是 在 GTn.o 的 基础 上 ,对 邮编 进行 一 次 直接 泛 化 的 结果 ,此 时 车 对 邮编 再 进行 一 
次 泛 化 ,就 得 到 了 结果 集 GTri,z] 。 由 此 看 来 ,对 于 二 维 的 原始 数据 集 ,可 以 找到 所 有 可 能 的 
泛 化 结果 集 GTri,j ,以 及 这 些 结果 集 之 间 的 泛 化 关系 。 直 观 上 ,可 以 用 节点 表示 结果 集 , 用 
有 向 边 表示 结果 集 之 间 的 泛 化 关系 ,于 是 得 到 了 图 7-4 的 泛 化 路 径 图 DGHrea。 










































































Ethnicity ZIP Ethnicity ZIP Ethnicity ZIP Ethnicity ZIP 
asian 02138 person 02138 person 0213# person 021** 
asian 02139 person 02139 person 0213# person 021** 
asian 02141 person 02141 person 0214* person 021** 
asian 02142 person 02142 person 0214* person 021** 
black 02138 person 02138 person 0213* person 021** 
black 02139 person 02139 person 0213* person 021** 
black 02141 person 02141 person 0214* person 021** 
black 02142 person 02142 person 0214* person 021** 
white 02138 person 02138 person 0213* person 021** 
white 02139 person 02139 person 0213* person 021** 
white 02141 person 02141 person 0214*# person 021** 
white 02142 person 02142 Person 0214* person 021** 

PT GT GT GTna 


图 7-3 二 维 原始 数据 集 和 泛 化 结果 集 
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(ENZD (CE0Z2) 


(ENZ0) (E021) 


(E020) 
图 7-4 泛 化 路 径 图 


泛 化 路 径 图 以 有 向 无 环 图 的 形式 表示 出 了 二 维 数据 集 的 直接 泛 化 关系 和 隐 含 泛 化 关 
系 , 在 对 数据 集 进 行 泛 化 时 ,只 需 沿 着 图 中 某 一 条 路 径 进行 直接 泛 化 操作 即 可 。 观 察 图 7-3 
可 知 ,3 个 结果 集 分 别 满足 3- 匿 名 6- 匿名、12- 匿 名 。 由 于 这 里 是 以 属性 列 为 单位 进行 泛 化 
操作 的 ,因此 这 种 泛 化 称 为 基于 属性 的 泛 化 。 可 以 发 现 , 沿 着 泛 化 路 径 不 断 对 数据 集 进行 泛 
化 的 过 程 中 ,满足 匿名 条 件 的 结果 集 的 & 值 在 不 断 增 大 ,结论 是 显然 的 ,因为 泛 化 操作 将 不 
同 的 值 映射 到 了 相同 的 值 。 

下 面 给 出 泛 化 结果 集 的 形式 化 定义 ,同时 将 数据 集 扩展 到 多 维 。 

【定义 7.3】 记 数 据 集 工 中 属性 A; 的 值 域 为 D; 二 dom(A;,T) ,如 结果 集 GTn 中 种 
族 属性 的 值 域 为 dom(E1,GTrn.u) 二 {person)。 设 Ti(Ai,…,A,) 和 Tj(Ail,…,A,) 是 定义 
在 相同 属性 上 的 数据 集 ,T; 是 T; 的 泛 化 结果 集 (简称 泛 化 ), 当 且 仅 当 

cw ral=lTls 

(2) Vz=1,2,°…,n:dom(A;,T;)<pdom(A.,T,); 

(3) Vz: VuET, JET,s.t uA SviLA], Vi ET, 3tET,s.t tLA.J< 
vti[LA:j]。 同 时 满足 , 记 作 T;:<T。 

条 件 (1) 规 定 了 存在 泛 化 关系 的 两 个 数据 集 必须 大 小 相等 , 即 包 含 相 同 数 量 的 元 组 ; 条 
件 (2) 规 定 了 泛 化 结果 集 的 任 一 属性 的 值 域 都 至 少 是 该 属性 原先 的 值 域 的 泛 化 结果 ,直观 
上 ,在 域 泛 化 层次 中 , 泛 化 结果 集 在 每 个 属性 上 的 值 域 都 位 于 原先 值 域 的 上 方 ,或 与 原先 的 
值 域 位 于 同一 层 ; 条 件 (3) 规 定 了 两 个 数据 集 所 包含 的 元 组 之 间 的 对 应 关系 ,对 泛 化 之 前 的 
数据 集 里 的 每 一 个 元 组 ,都 能 在 泛 化 结果 集 里 找到 对 应 的 泛 化 后 的 元 组 ,反之 , 泛 化 结果 集 
中 的 每 一 个 元 组 ,都 是 原先 数据 集中 某 个 元 组 的 泛 化 。 特 别 地 , 若 两 个 数据 集 完 全 相同 , 则 
称 T; 是 T,; 的 零 泛 化 结果 。 

由 以 上 的 分 析 可 知 ,同一 个 原始 数据 集 可 以 有 多 个 泛 化 结果 ,并 且 满 足 匿名 条 件 的 泛 化 
结果 可 以 具有 各 自 不 同 的 & 值 ,回顾 图 7-3 就 能 立即 得 出 这 一 结论 。 显 然 ,. 具 有 不 同 & 值 的 
泛 化 结果 集 就 拥有 不 同 的 匿名 效果 。 那 么 .如何 从 中 选 出 最 优 的 泛 化 结果 集 呢 ? Samarati 
给 出 了 一 种 较为 简便 的 方法 .该 方法 计算 泛 化 结果 集 的 属性 与 原始 数据 集 的 属性 间 的 “ 距 
离 ”, 并 选 出 距离 最 短 的 结果 集 , 作 为 最 优 的 泛 化 结果 集 。 

这 里 首先 给 出 Samarati 对 属性 距离 的 定义 。 

【定义 7.4】 设 T(Ai.….A,) 与 T;(Ai.….,A,) 是 两 个 数据 集 ,满足 T;T;。 记 对 应 
属性 间 的 距离 d: 为 域 泛 化 层次 中 从 dom(A:.T;) 到 dom(A..T;) 的 路 径 长 度 . 从 数据 集 工 ; 
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到 工 ; 的 距离 定义 为 向 量 DVij==[di,…,d,]。 


按照 该 距离 的 定义 , 找 出 原始 数据 集 与 泛 化 结果 集 之 间 的 距离 向 量 是 非常 直接 的 ,只 需 
从 表示 泛 化 结果 集 的 记号 中 找 出 下 标 即 可 ,如 PT 与 GTn,u 之 间 的 距离 向 量 就 是 [1,1]; 类 
似 地 ,也 可 以 找 出 泛 化 结果 集 之 间 的 距离 向 量 ,如 GTn,o 到 GTn, 的 距离 为 [0,1]。 设 两 个 
距离 向 量 DV==[d1,…,d,],DV 二 [di1,…,d%], 若 对 所 有 的 i 二 1,…,n 都 有 di; 过 di, 则 称 
DV<<DYV' ,车 两 个 距离 向 量 同时 还 满足 DV 关 DV , 则 称 DV<DV”。 

至 此 , 便 可 以 定义 满足 &- 匿 名 条 件 的 最 小 泛 化 结果 集 了 。 

【定义 7.5】 设 T; 和 T 工 ; 为 两 个 数据 集 ,并 满足 T; 人 Tj;,T; 是 T; 的 &- 最 小 泛 化 结果 
集 , 当 且 仅 当 

(1) TT 满足 匿名 。 

(2) 4T. :TT.,T, 满足 &- 匿 名 且 DV 过 DVi,;。 

也 就 是 说 ,只 要 泛 化 路 径 图 中 从 原始 数据 集 到 满足 匿名 的 泛 化 结果 集 的 路 径 上 不 存 
在 其 他 满足 -匿名 的 泛 化 ,那么 该 泛 化 结果 集 就 是 和 最 小 泛 化 结果 集 。 针 对 上 述 示例 , 假 
设 准 标识 符 为 种 族 和 邮编 ,并 设 &=2, 则 图 7-4 的 泛 化 路 径 图 中 有 (Ei,2Zo) 和 (Eo,21) 两 个 
节点 同时 满足 条 件 , 对 应 的 结果 集 是 GTrm 和 GTron。 若 设 A=3, 则 最 小 泛 化 结果 集 变 为 
GTnom 和 GT 。 

可 以 看 出 , 泛 化 进行 的 次 数 越 多 ,数据 集 包 含 的 信息 就 越 少 。 可 以 使 用 信息 损失 这 一 度 
量 来 表示 泛 化 进行 的 程度 。 一 般 用 信 或 精确 度 来 度量 信息 损失 ,以 下 的 定义 给 出 了 结果 集 
与 原始 数据 集 相似 程度 的 度量 方法 。 

【定义 7.6】 设 原 始 数 据 集 及 其 包含 的 元 组 为 PTCA1,…,A,) 二 人,…,tr),GT 是 
一 个 可 能 的 泛 化 结果 , 设 为 GT(A,…,Au) 一 (全 ,向 )) 记 结果 集 GT 中 元 组 :5 在 属 
性 A; 上 的 值 ( 即 :个 [A;]) 在 其 值 泛 化 层次 VGH; 上 的 高 度 为 hs ,对 应 值 泛 化 层次 的 总 高 度 
为 |VGH, | 十 1。 精 确 度 定义 为 : 

IPT| nn hs 
2 | VGH,; | 十 1 
| PT |。7 

观察 上 式 , 若 不 执行 任何 泛 化 . 即 GT=PT 时 ,所 有 的 hs 都 为 0, 故 精确 度 为 1; 反之 ， 
车 所 有 单元 都 泛 化 到 了 最 高 层次 , 即 对 所 有 的 j, 都 有 hi 二 |VGH;j| 十 1, 那 么 分 子 部 分 的 计 
算 结果 恰好 为 |PT|， ,精确 度 的 值 为 0。 而 且 , 泛 化 执行 的 次 数 越 多 ,分 子 部 分 的 值 就 越 
大 ,由 于 分 母 为 常量 , 故 整个 表达 式 的 值 越 小 ,这 符合 精确 度 本 身 的 语义 。 

有 了 精确 度 这 一 度量 方法 , 便 可 以 解决 这 样 的 问题 : 同时 作为 2- 最 小 泛 化 结果 集 ， 
GT 与 GTn.o 究 竟 熟 优 熟 劣 ? 对 图 7-3 中 的 数据 集 进行 精确 度 计算 可 知 ,Prec(GTrm) 
二 0. 5000 ,而 Prec(GTroD) 一 0.6667. 所 以 就 精确 度 而 言 .GTron 要 优 于 GTn.n。 

基于 精确 度 的 度量 方法 找 出 最 优 泛 化 结果 的 算法 称 为 最 小 泛 化 算法 (MinGen) ,其 基本 
思想 是 : 对 于 选 定 的 & 值 , 先 检 查 原始 数据 集 是 否 满足 人 匿名 , 若 满足 , 则 原始 数据 集 本 身 
就 是 最 小 泛 化 结果 ; 否则 ,保存 所 有 可 能 的 泛 化 结果 .再 从 中 选 出 满足 上 匿名 的 部 分 ,对 这 
些 结果 集 计 算 精 确 度 .精确 度 最 大 的 泛 化 结果 如 果 不 止 一 个 ,就 根据 预定 义 的 倾向 选择 最 优 
的 泛 化 结果 ,并 返回 。 

接 下 来 介绍 一 种 基于 划分 的 泛 化 方法 。 


Prec(GT)= 1 





(7-3) 
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假设 进行 匿名 处 理 的 数据 表 中 共有 4 个 准 标 识 符 , 这 种 方法 将 每 一 个 准 标识 符 作为 一 
个 维度 得 到 一 个 d 维 的 空间 .将 所 有 的 元 组 用 空间 点 的 形式 标注 在 4d 维 空间 中 ,该 点 在 每 
一 个 维度 上 的 投影 即 是 该 点 代表 的 元 组 在 这 个 准 标识 符 上 对 应 的 值 。 同 时 ,为 了 保留 元 组 
出 现 次 数 的 信息 ,用 一 个 二 元 组 (point, count) 来 描述 每 一 个 点 ,其 中 ,point 代表 点 了 的 坐 
标 , 即 描述 该 点 所 代表 的 元 组 的 所 有 取 值 ; 而 count 代表 点 出 现 的 次 数 , 即 描述 该 点 所 代 
表 的 元 组 在 表 中 出 现 的 次 数 。 图 7-5 是 一 个 原始 数据 集 及 其 二 维 空间 的 表示 。 
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图 7-5 
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(b) 


原始 数据 集 及 其 二 维 空间 表示 


首先 ,考虑 针对 单 维 的 划分 。 在 数据 集 每 一 个 准 标识 符 的 域 都 是 满足 全 序 关 系 的 前 提 
下 ,将 每 一 个 准 标识 符 的 域 划 分 成 一 系列 不 相互 重 有 的 区 域 , 如 将 "年龄 "划分 为 {25,26)， 
{27,28) 。 则 位 于 同一 组 中 的 元 组 都 落 在 了 某 个 具体 范围 内 ,可 以 直接 用 这 个 范围 来 替换 元 
组 的 值 。 因 此 ,针对 图 7-5(a) 的 数据 集 ,编号 为 1.2、3 的 元 组 的 值 序列 相应 地 变 成 了 {25， 
26) ,{53711,53712) ,而 编号 为 4、5、6 的 元 组 则 泛 化 为 {27,28),{53710,53711,53712})。 

然后 ,是 多 维 划分 ,在 多 个 维度 上 划分 子 空间 。 在 对 由 准 标识 符 构 成 的 gd 维 空间 进行 
划分 时 ,划分 产生 的 每 个 子 空间 中 必须 均 有 不 少 于 个 元 组 。 称 这 种 满足 &- 匿 名 条 件 的 多 
维 划 分 为 &- 匿 名 的 多 维 划 分 。 可 以 通过 找 均值 或 中 位 数 的 方法 来 确定 分 界 点 ,图 7-6 显示 
了 上 述 数 据 集 的 两 种 划分 方法 的 结果 。 


25 


26 
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53710 53711 53712 和 5 OO 上 
DTO 2 .GG 
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(a) 均值 划分 (b) 中 位 数 划 分 


图 7-6 多 维 划 分 方法 


除了 泛 化 的 方法 之 外 ,Samarati 还 提出 了 抑制 的 思想 。 当 数据 集中 存在 的 少量 元 组 导 
致 数据 集 不 满足 匿名 条 件 , 并 且 为 达到 匿名 要 求 ,需要 做 大 量 的 泛 化 操作 , 则 数据 发 布 者 还 
可 以 选择 剔除 这 些 元 组 ,而 仅 发 布 数据 集 里 满足 匿名 条 件 的 部 分 。 这 种 做 法 产生 的 最 优 结 
果 集 包含 的 元 组 数 将 少 于 原始 数据 集 . 但 泛 化 的 频次 却 降低 了 。 由 于 该 方法 的 基本 思想 与 
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上 文 介绍 的 泛 化 方法 差别 不 大 , 且 之 后 的 学 者 不 再 采用 Samarati 对 抑制 的 定义 ,因此 这 种 
方法 本 文 不 再 著述 。 


7.2.3 了 -多 元 化 


入 匿名 模型 保证 了 发 布 的 数据 中 准 标识 符 下 的 每 一 个 值 序列 至 少 对 应 & 个 实体 ,因此 
任意 实体 隐私 泄露 的 概率 为 1/A。 然 而 ,大 匿名 模型 在 对 数据 集 进 行 匿名 处 理 时 ,完全 没有 
考虑 敏感 属性 ,因此 存在 较 大 的 问题 。Machanavajjhala 等 人 发 现 ,上 匿名 数据 集会 在 遭受 
同 质 性 攻击 和 背景 知识 攻击 时 泄露 隐私 。 

假设 Wendt 是 Ada 的 邻居 , 某 日 Ada 看 到 Wendt 病 倒 并 被 送 入 市 一 医院 住院 ,她 查询 
到 市 一 医院 发 布 的 4- 匿 名 住院 记录 ,如 表 7-3 所 示 , 并 确定 Wendt 的 住院 记录 就 在 其 中 。 
下 面 基于 这 个 数据 集 介绍 同 质 性 攻击 和 背景 知识 攻击 所 引起 的 隐私 泄露 。 


表 7-3 4- 匿 名 住院 记录 









































ZIP Age Nationality Condition 
1 130 xx <20 ¥* Heart Disease 
2 130 xx <20 * Heart Disease 
3 130 xx <20 #* Viral Infection 
4 130 xx <20 * Viral Infection 
5 1485 * 二 30 ¥* Cancer 
6 1485 * >30 x Heart Disease 
学 1485 * 二 30 关 Viral Infection 
8 1485 * 二 30 闪 Viral Infection 
9 130 ## 2 * x Cancer 
10 130 xx 2% 关 Cancer 
11 130 xx 2 * x Cancer 
12 130 xx 2 * 基 Cancer 














同 质 性 攻击 只 有 在 敏感 属性 同 质 化 严重 的 情况 下 才 会 发 生 。 由 于 Ada 认识 Wendt ,并 
且 知 道 他 是 23 岁 的 男性 ,住址 邮编 为 13033 ,所 以 可 以 断定 Wendt 是 编号 9.10、11、12 中 的 
一 个 。 又 因为 这 4 个 编号 的 患者 对 应 的 疾病 都 是 癌症 ,所 以 Ada 得 出 结论 : Wendt 因 癌 症 
住院 治疗 了 。 在 这 个 场景 里 ,敏感 属性 值 *“Cancer" 具 有 同 质 化 。 

背景 知识 攻击 是 攻击 者 根据 一 定 的 事实 来 推断 敏感 属性 ,造成 隐私 泄露 。 背 景 知 识 分 
两 种 类 型 , 即 实例 背景 知识 和 统计 背景 知识 。Ada 可 能 知道 邻居 Wendt 没有 得 肺炎 ,因为 
他 没有 表现 出 肺炎 的 任何 症状 ,这 种 直接 关系 到 个 体 (或 称 实例 ) 的 背景 知识 称 为 实例 背景 
知识 。 考 虑 另外 一 种 情况 .Ada 的 一 个 叫 Umeko 的 朋友 也 在 市 一 医院 住院 ,并 且 她 的 住院 
记录 也 在 表 7-3 的 数据 集中 。Ada 知道 Umeko 是 19 岁 的 日 本 女性 ,住址 邮编 为 13068 ,所 
以 Ada 推断 她 应 在 记录 1、2、3、4 中 。 这 组 患者 对 应 的 疾病 有 心脏 病 和 病毒 感染 ,这 样 患者 
隐私 就 不 易 泄露 了 。 但 是 .Ada 知道 日 本 人 患 心 脏 病 的 概率 极 低 ,所 以 推断 出 Umeko 住院 
的 原因 是 病毒 感染 。 这 种 攻击 是 攻击 者 基于 “日 本 人 患 心 脏 病 的 概率 极 低 ” 这 样 的 背景 知识 
做 出 推断 ,从 而 导致 隐私 泄露 . 故 Ada 所 使 用 的 攻击 方法 就 称 为 统计 背景 知识 攻击 。 其 他 
统计 背景 知识 .还 有 如 关于 人 群 中 某 些 敏感 属性 和 非 敏感 属性 的 分 布 ,如 疾病 在 年 龄 下 的 条 
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件 分 布 PCLLCondition] 王 "Cancer" |z[ Age] 宇 30) 等 。 

为 了 寻找 背景 知识 攻击 的 本 质 ,Machanavajjhala 对 背景 知识 进行 了 抽象 。 首 先 , 假 设 
数据 集 工 是 从 全 集 2 中 抽取 的 简单 随机 样本 , 即 工 中 的 实体 是 从 总 体 中 不 放 回 地 随机 抽样 
的 结果 ,同时 假设 了 中 只 包含 一 个 敏感 属性 。 这 里 ,使 用 最 坏 情 况 的 假设 , 即 Ada 完全 了 解 
总 体 中 非 敏感 属性 Q( 即 准 标识 符 , 在 下 文 不 加 区 分 地 使 用 这 两 个 术语 ) 和 敏感 属性 S 的 联 
合 分 布 ,以 及 Bob 的 非 敏感 属性 ,如 Bob 在 原始 数据 集中 对 应 元 组 1, 他 的 非 敏感 属性 为 
t[Qj 二 gq, 而 在 经 过 泛 化 的 匿名 数据 集 T* 中 ,为 1* [Qj=gq*。 

在 Ada 观测 到 发 布 的 匿名 数据 集 之 前 ,她 只 能 认为 Bob 是 从 总 体 中 满足 :[Q]=g 的 那 
个 部 分 中 随机 抽取 的 一 个 样本 ,因此 Ada 只 能 根据 她 对 总 体 的 了 解 来 推断 Bob 的 敏感 属 
性 , 即 Ada 要 推断 事件 “区 LS]= "发 生 的 概率 。 这 种 只 根据 总 体 分 布 特征 得 出 的 随机 事件 发 
生 的 概率 称 为 先 验 概率 。 而 当 Ada 观测 到 匿名 数据 集 后 ,她 便 将 此 作为 新 的 知识 ,融入 到 
自己 对 总 体 的 认识 中 ,从 而 Ada 就 认为 事件 "上 LS]=s? 发 生 的 概率 变化 了 ,这 种 由 于 融和 人 新 
知识 而 变化 后 的 概率 称 为 后 验 概 率 。 记 Ada 认为 非 敏 感 属性 为 g 的 实体 的 敏感 属性 为 * 的 
先 验 概率 为 go.s ,而 观测 到 匿名 数据 集 T 后 ,认为 非 敏 感 属 性 为 4 的 实体 的 敏感 属性 为 
的 后 验 概率 为 Bw.s,r*，。 用 1 一 “4* 表示 元 组 1 泛 化 到 了 4* ,可 以 得 到 : 

ae = PGLS] = s | zt[Q] = 9) (7-4) 
Bosr*) = PLLS] = s|iQ=gqgA jt ET 人 一人) (7-5) 

为 了 更 清晰 地 认识 后 验 概率 的 计算 方法 , 先 简单 介绍 Machanavajjhala 有 关 “ 随 机 世界 ” 
的 论述 。 对 于 给 定 的 总 体 ,假设 其 中 包含 的 个 体 具 有 某 种 属性 (如 “疾病 "属性 ) , 且 可 以 进行 
随机 不 放 回 的 抽样 ,得 到 一 定 大 小 的 简单 随机 样本 (如 个 ), 由 于 该 样本 中 所 有 个 体 在 届 性 
下 都 有 值 ,因此 样本 中 存在 某 种 对 应 关系 , 它 将 个 体 映 射 到 属性 值 ,这 种 一 定 大 小 的 规定 了 
个 体 到 属性 值 的 映射 关系 的 简单 随机 样本 称 为 随机 世界 。 

【定义 7.7】 随机 世界 是 一 个 (y5,2Z,) 对 ,其 中 六 :0 一 S 是 0 的 简单 随机 样本 Z 中 个 
体 到 敏感 属性 的 对 应 关系 .样本 容量 为 n。 用 随机 世界 (六 ,2Z,) 中 所 有 个 体 以 及 个 体 对 应 的 
非 敏 感 属性 和 敏感 属性 构造 的 原始 数据 集 Tc,z,) , 称 为 随机 世界 Cy ,2 ) 描 述 的 数据 集 , 记 
(T* ,XX) 为 包含 个 体 X 的 匿名 数据 集 ,ncw* ,w» 为 匿名 数据 集 T* 中 同时 满足 1* [Qj 二 g* 和 
三 [S]= 的 元 组 个 数 。 如 果 Tes,z) 包 含 个 体 X, 且 能 泛 化 到 T , 即 : 

(1) XEZ,,XLQ]J=dETeszLQ]. 即 X 的 非 敏感 属性 4 出 现在 原始 数据 集中 ; 

(2) 对 T* 中 每 一 个 (g* ,s) 值 序列 ,Z 中 都 恰 有 ?ze .9 数量 的 个 体 ,满足 w[Q] 能 泛 化 到 
9 , 且 Wo) 一 s。 

则 称 随机 世界 (y5,2Z,) 与 匿名 数据 集 (T* ,X) 相 容 , 记 作 (y5 ,2,)HXT* ,X)。 

简单 地 说 ,随机 世界 只 是 在 样本 的 基础 上 增加 了 一 个 对 应 关系 。 注 意 到 ,随机 世界 包含 
了 个 体 ,个体 又 具有 非 敏 感 属性 和 敏感 属性 ,很 显然 .随机 世界 恰好 对 应 到 了 某 个 原始 数据 
集 ,而 泛 化 后 的 原始 数据 集 恰 好 就 对 应 到 了 发 布 的 某 个 匿名 数据 集 。 例 如 , 某 个 包含 个 体 X 
的 随机 世界 对 应 的 原始 数据 集 经 过 泛 化 后 :恰好 就 是 攻击 者 观测 到 的 医院 发 布 的 匿名 住院 
记录 。 因 此 ,就 能 通过 计算 符合 条 件 的 随机 世界 的 数量 间接 得 出 一 些 重要 的 概率 。 

前 面 已 经 提 及 ,攻击 者 完全 了 解 总 体 中 非 敏 感 属 性 与 敏感 属性 的 联合 分 布 , 所 以 知道 非 
敏感 属性 为 g 的 个 体 有 N, 个 ,其 中 敏感 属性 为 的 有 Ns 个 ,也 即 y 将 N。 数量 的 个 体 中 
的 Ns 个 映射 到 了 属性 值 ; 上 。 然 而 ,对 于 具体 把 哪些 个 体 映射 到 s 上 ,攻击 者 并 不 关心 ， 
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因此 每 一 个 对 应 关系 上 被 选中 的 概率 都 是 相等 的 ; 由 于 Z。 是 简单 随机 抽样 的 结果 ,故而 
所 有 的 Z 都 是 等 可 能 的 ,又 因为 Z, 独立 于 ys 的 选取 ,所 以 随机 世界 (y5 ,2Z,) 的 选取 也 是 等 
可 能 的 。 记 zx 一 {( 多 ,ZJFXT ,XX)) 为 所 有 与 (T” ,XX) 相 容 的 随机 世界 的 集合 ,xi,s 二 
{六 ,Zi FXT* ,XX)|1J(X) 二 s) 为 所 有 与 (T* ,X) 相 容 且 X 的 敏感 属性 为 * 的 随机 世界 的 
集合 。 

因为 所 有 的 随机 世界 都 是 等 可 能 的 ,所 以 上 述 两 个 随机 世界 集 的 元 素数 目的 比值 就 是 
事件 * 史 (CX) 一 s 的 概率 。 注 意 到 , 巡 (X) 一 等 价 于 事件 * 被 攻击 者 X 具有 敏感 属性 >”, 这 
样 一 来 , 便 得 到 了 后 验 概率 ， 





pu.sr， = te (7-6) 


考虑 到 将 个 体 X 对 应 到 不 同 的 敏感 属性 值 的 随机 志 界 是 互 斥 的 , 即 若 5 隆 52, 则 同一 
随机 世界 (5 ,2Z,) 不 可 能 既 及 (X)= 二 4, 又 有 六 hig 
写 为 ， 
[zi |= 2) | ri | (7-7) 
YES 


于 是 ,只 需要 对 每 个 可 能 的 * 求 出 | ra,。| ,就 得 到 了 后 验 概率 。 现 在 假设 个 体 X 的 属 
性 值 序列 为 (g,s) ,攻击 者 知道 全 集 Q 中 满足 。[Q]=g 的 个 体 w 共有 NN, 个 ,而 其 中 敏感 属 
性 为 * 的 共有 Neo, 个 ,也 就 是 说 ,这 NN, 个 实体 中 ,有 一 个 被 攻击 者 X 的 敏感 属性 为 ,还 有 
Ns 一 1 的 实体 也 具有 敏感 属性 ,而 对 于 任 一 其 他 敏感 属性 值 隆 ;, N, 个 实体 中 共有 
Ne 个 实体 具有 这 种 敏感 属性 ,从 而 这 N, 个 实体 在 敏感 属性 上 的 分 布 符合 多 项 分 布 。 

而 回顾 多 的 定义 , 易 知 每 一 个 都 恰好 唯一 对 应 了 该 多 项 分 布 的 一 个 样本 ,如 随机 选 
取 100 个 实体 ,并 从 1 到 100 分 别 编号 ,发 现 其 中 1 到 10 号 患 有 疾病 s1,11 到 20 号 患 有 疾 
病 s:,…,91 到 100 号 患 有 疾病 we, 这 是 实体 在 疾病 上 的 多 项 分 布 的 一 个 样本 ,而 由 这 100 
个 实体 组 成 的 随机 世界 中 ,多 将 1 到 10 号 患者 对 应 到 疾病 ,将 11 到 20 号 对 应 到 疾病 
sm 将 91 到 100 号 对 应 到 疾病 so ,因此 这 种 随机 世界 的 对 应 关系 y 恰好 就 是 多 项 分 布 

一 个 实例 (或 样本 ) 。 所 以 ,只 要 找 出 多 项 分 布 可 能 的 情况 数 ,就 找到 了 对 应 关系 ys 的 数 

目 , 又 因为 多 与 简单 随机 样本 Z 的 选取 是 独立 的 ,所 以 可 以 求 出 满足 要 求 的 随机 世界 的 数 
量 |rex。| 。 

如 上 所 述 , 根 据 多 项 分 布 的 定义 ,包含 被 攻击 者 X 的 N, 个 实体 在 敏感 属性 上 的 分 布 的 
所 有 可 能 情况 数 为 : 

(N,—D! 
(No DINeGo! 


注意 到 ,这 里 只 考虑 了 非 敏 感 属性 为 g 的 情 况 ， 假设 总 体 中 非 敏感 属性 为 %' 天 9 的 实体 
有 Ny 个 , 则 包含 被 攻击 者 的 总 体 0 在 敏感 属性 上 的 分 布 的 所 有 可 能 情况 数 为 ， 
CN, 一 1)! Ns! _ Nes Ny! 
Nes — DI TL No ! i Tvv 1 Noyea[T[Neol 


5 YES 
现在 考虑 相 容 于 匿名 数据 集 (T ， X) 的 简单 随机 样本 的 个 数 . 在 匿名 数据 集中 ,X 表 
现 为 元 组 必 二 (gq* ,s) ,在 值 序列 为 (gq* ,s) 的 元 组 中 ,除了 X 之 外 ,应 该 还 有 zc ,5 一 1 个 ,所 
以 ,为 使 样本 相 容 于 匿名 数据 集 ,需要 从 总 体 中 抽取 6: .一 1 个 能 被 汉化 为 (gq* ,s) 的 实体 ， 
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记 总 体 中 能 被 泛 化 到 (g” ,s) 的 实体 数目 为 Na ,。, 由 于 被 攻击 者 X 已 经 在 匿名 数据 集中 ， 
故 只 需 从 Na: ,» 一 1 个 实体 中 选 n6* ,5 一 1 个 放 入 样本 Z,; 而 对 于 匿名 数据 集 (T  ,X) 中 其 
他 的 元 组 ,其 值 序列 (g”,s ) 应 该 满足 % “天 4 或 者 s 去;, 因 此 ,对 于 每 一 个 可 能 的 (g”,s ) 关 
(g* ,s) ,都 要 从 总 体 中 能 泛 化 到 (gs ) 的 No*,s 个 实体 中 抽取 no*,s 个 放 入 样本 Z,。 记 


组 合 数 (二 , 则 简单 随机 样本 的 数目 为 


| 三 对 (i )= Ng” ,9 而 人 ) (7-8) 


na wl1 We xS)\t(g” ,9) 129 ) No (eeDEQ" xs 2 
又 因为 随机 世界 的 对 应 关系 多 与 随机 样本 的 选取 是 独立 的 ,所 以 满足 要 求 的 随机 世界 
的 个 数 | xix,» | 就 是 以 上 两 式 的 乘积 ,如 下 所 示 。 在 表达 式 的 整理 上 ,把 含有 sx 的 项 放 在 左 


边 , 而 把 其 他 项 放 到 右边 ,并 在 最 终 的 结果 中 用 a 代替 不 含有 s 的 项 ,这 样 做 的 好 处 是 ,后 验 

概率 Bos,r*， 二 | rex,o /> | xix,w | 的 分 子 和 分 母 部 分 具有 一 致 的 形式 ,计算 结果 将 都 仿 
YES 

有 项 ,因此 会 在 分 式 中 抵消 ,从 而 大 大 简化 了 结果 表达 式 。 






































No,s Ns! 有 Ne 
| rex | | ee 2 和 | 
la geQ Tv yl (9 "DeQ" xsl ne”) 
Noa” ,) Now x Ny! 义 | 
Na Ndea Noni! "DeQ xs ln 
YES 
一 aero He Xa (7-9) 
Neo 5 
从 而 ,可 以 得 出 后 验 概率 的 结果 为 
2 en ee 
E | xix.» | Ne ,9 P(g* ,s) 
poor 


| rexw | No ., P(g's) 
色 Ze Ne ov ”PC s) 


jg Plg.s) .P(g*) 
E 和 ,SS) P(g) 


Ee » Plqs) 。 PC" ) 
0 








和 Pal oa) 
到 PC 19”) (7-10) 


Fn RN PC | gq) 
Fa 


特别 地 , 当 非 敏感 属性 Q 与 敏感 属性 S 相互 独立 时 ,结论 将 变 得 非常 直观 。 即 有 














二 | g) 二 
人 ed A Ng* ,5) 
BeasT* ) Pe To Pry (7=11) 
Zone 0 Pr Toy 22 i 2 A 
上 式 正好 就 是 被 攻击 者 所 处 等 价 类 中 敏感 属性 值 ; 所 占 的 比例 ,这 与 我 们 的 直观 感受 


是 一 致 的 。 
一 旦 攻击 者 确定 了 实体 XX 具有 敏感 属性 s 的 概率 为 B6..7*) ,就 可 能 发 生 两 种 情况 : 攻 
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击 者 或 者 以 较 大 的 把 握 确定 X 具有 敏感 属性 ,或 者 以 较 大 的 把 握 确定 X 不 具有 敏感 属性 
s。 将 这 两 种 情况 分 别称 为 正 向 隐私 泄露 和 反 向 隐私 泄露 。 

【定义 7.8】 给 定 ;0, 如 果 3 了 ziET,s.t :LQj 二 q,t[S] 二 s, 且 后 验 概率 Bas,7* ;1 一 
6, 则 称 为 数据 集 T’ 面临 正 向 隐私 泄露 。 

【定义 7.9】 给 定 s>0, 如 果 了 ET,s.t t[Qj 二 gq,t[Sj 关 ;5, 且 后 验 概率 Bas,r* ,<e, 则 
称 为 数据 集 并 面临 = 反 向 隐私 泄露 。 

例如 ,Ada 通过 同 质 性 攻击 断定 邻居 Wendt 因 癌 症 住院 治疗 就 是 因为 医院 发 布 的 匿名 
住院 记录 面临 正 向 隐私 泄露 ; 类 似 地 ,Ada 可 以 断定 Umeko 没有 得 癌症 ,因为 Umeko 所 处 
等 价 类 中 并 没有 人 得 癌症 , 即 住院 记录 面临 反 向 隐私 泄露 。 

事实 上 ,如 果 攻 击 者 在 观测 匿名 数据 集 的 前 后 ,认为 事件 “"X 具有 敏感 属性 s" 发 生 的 概 
率 没有 发 生 明 显 变化 , 即 先 验 概率 ce, 和 后 验 概率 Boo,,,7* ,的 差 值 很 小 ,就 较 好 地 保护 了 隐 
私 。 这 种 使 先 验 与 后 验 概率 无 明显 差异 的 数据 发 布 原 则 称 为 不 提供 信息 原则 ,通过 限定 先 
验 与 后 验 概率 之 间 的 差异 的 隐私 保护 模型 称 为 贝 叶 斯 最 优 隐 私 保护 模型 。 

然而 ,正如 Machanavajjhala 自己 的 论述 , 贝 叶 斯 最 优 隐私 保护 模型 存在 着 几 个 重要 缺 
陷 。 首 先 ,数据 发 布 者 不 一 定 清楚 总 体 中 非 敏感 属性 与 敏感 属性 的 联合 概率 分 布 ; 其 次 , 攻 
击 者 所 拥有 的 背景 知识 对 于 数据 发 布 者 而 言 是 未 知 的 , 即 数据 发 布 者 不 了 解 攻击 者 拥有 哪 
些 知识 等 。 

因此 , 贝 叶 斯 最 优 隐私 保护 模型 的 理论 研究 价值 大 于 实际 价值 , 它 的 基本 思想 影响 着 之 
后 差分 隐私 等 模型 的 发 展 。 


7.3 位 置 隐私 保护 


随 着 移动 网 络 的 普及 ,人 们 在 日 常生 活 中 越 来 越 频繁 地 使 用 着 位 置 服务 ,如 查询 附近 的 
酒店 、 目 的 地 导航 、 查 看 附近 的 用 户 等 。 如 果 没 有 经 过 隐私 处 理 , 位 置 服务 的 日 常 使 用 会 在 
移动 网 络 中 留 下 用 户 的 身份 标识 或 者 准确 的 位 置信 息 ,而 这 些 信 息 一 旦 泄露 , 便 会 严重 侵害 
用 户 隐 私 。 

位 置 服务 通用 系统 架构 包括 移动 终端 .定位 系统 .通信 网 络 、 位 置 服务 器 等 部 分 ,连接 到 
定位 系统 的 移动 终端 实时 接收 定位 系统 提供 的 位 置信 息 , 当 用 户 产生 位 置 服务 实际 使 用 需 
求 时 ,移动 终端 通过 通信 网 络 向 位 置 服务 器 发 送 包 含 实时 位 置信 息 的 查询 请 求 ,而 位 置 服务 
器 根据 用 户 需 求 返回 查询 结果 到 移动 终端 。 这 一 过 程 中 的 每 个 环节 都 可 能 发 生 隐私 泄露 。 
例如 ,移动 终端 失窃 会 造成 大 量 用 户 信息 泄露 ,一般 可 以 通过 硬件 加 密 .指纹 解锁 .虹膜 识别 
等 方式 阻止 盗窃 者 获取 终端 中 存储 的 信息 ; 攻击 者 若 能 劫持 通信 网 络 中 的 数据 包 , 就 能 在 
一 定 程度 上 侵害 用 户 隐 私 , 这 可 通过 加 密 来 解决 ; 最 后 ,位 置 服 务 器 一 旦 被 攻破 ,或 服务 提 
供 商 出 于 商业 目的 销售 用 户 位 置信 息 , 用 户 隐 私 将 遭受 严重 侵害 ,而 这 类 问题 是 可 以 用 大 
匿名 的 方法 加 以 解决 的 。 将 在 本 节 介 绍 若干 个 匿名 模型 在 位 置 服务 隐私 保护 中 的 应 用 。 

Gruteser 等 人 首先 将 太 匿 名 的 思想 引入 位 置 服务 隐私 保护 中 ,认为 位 置信 息 实 际 上 就 
是 个 体 在 某 个 时 间 处 于 二 维 空 间 上 的 某 个 点 , 即 每 个 位 置信 息 都 是 一 个 三 元 组 (x,y.t)。 然 
而 ,这 样 的 三 元 组 位 置信 息 一 经 泄露 ,就 会 损害 用 户 隐私 ,因为 攻击 者 很 容易 确定 三 元 组 
(Cry't) 与 个 体 的 对 应 关系 。 
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按照 泛 化 的 基本 思想 ,如 果 把 用 户 的 位 置信 息 改写 为 形 如 ([zi,z?],[yivyz],[ayo]) 
的 表达 式 , 则 同一 条 位 置信 息 可 能 对 应 & 个 实体 ,因此 很 大 程度 上 保护 了 用 户 位 置 隐私 。 假 
设 在 某 个 时 间 段 La ,zz] 内 ,请 求 位 置 服务 的 用 户 的 分 布 如 图 7-7 所 示 。 为 了 保持 与 大 匿 名 
模型 的 一 致 性 ,把 用 户 分 布 转换 为 图 7-8 的 数据 集 。 读 者 可 以 通过 基于 单元 、 属 性 或 元 组 的 
入 匿名 将 用 户 分 布 数据 集 处 理 为 人 匿名 数据 集 。 下 面 以 基于 元 组 的 上 大 匿名 为 例 , 简 单 介绍 
入 匿名 在 位 置 服务 隐私 保护 模型 中 的 应 用 。 




















































































































ID 项 
1 1.2 
0 1 2 3 4 2 | [2 
3 | U2 
| 2 4 | GB,4 
el3 os 二 2.3 3.4 
四 6 | [| 02 
2 7 | [23 1.2 
8 8 | [2 [ C02 
3 9 | [0,2 1.2 
的 | uo 10 3.4] | [it] 
a un 11 | [2,3 3.4] | [12] 
图 7-7 需要 位 置 服务 的 用 户 分 布 图 图 7-8 用 户 分 布 数据 集 


设 参数 人 一 2 ,先后 在 横 轴 、 纵 轴 上 进行 多 维 划分 ( 蒙 德 里 安 多维 划 分 ), 结 果 如 图 7-9 所 
示 , 图 7-10 显示 了 相应 的 2- 匿名 数据 集 。 
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图 7-9 多 维 划分 结果 图 7-10 2- 匿 名 数据 集 


Gruteser 提出 这 种 隐私 保护 模型 的 目的 是 保护 用 户 的 位 置 隐私 不 被 泄露 ,也 就 是 说 , 攻 
击 者 可 以 通过 用 户 的 具体 位 置 推测 出 与 用 户 相 关 的 信息 ,从 而 侵害 个 人 隐私 ,因此 这 种 隐私 
保护 模型 称 为 位 置 隐私 保护 模型 。 然 而 ,用 户 具 体位 置 并 不 是 在 所 有 情况 下 都 需要 保护 ,有 
时 反而 是 用 户 在 使 用 位 置 服务 的 过 程 中 所 查询 的 关键 内 容 ( 也 称 为 兴趣 点 ) 泄 露 了 个 人 隐 
私 。 例 如 ,攻击 者 一 旦 知道 用 户 正在 查询 附近 的 医院 ,就 有 较 大 的 把 握 推断 该 名 用 户 患 有 
疾病 。 

Pingley 等 人 提出 的 伪 查 询 模型 就 在 一 定 程度 上 避免 了 查询 内 容 相 关 的 隐私 泄露 ,这 种 
模型 称 为 查询 隐私 保护 模型 。Pingley 设 定 的 应 用 场景 是 ,用 户 从 某 个 地 点 到 另 一 个 地 点 的 
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过 程 中 ,重复 发 起 位 置 服务 查询 请 求 ,不 可 信 的 位 置 服务 提供 商 作为 攻击 者 ,建立 用 户 与 兴 
趣 点 之 间 的 联系 ,造成 用 户 隐私 泄露 。 

可 以 看 出 ,用 户 兴 趣 点 隐私 泄露 的 直接 原因 是 查询 请 求 本 身 就 暗含 了 用 户 和 兴趣 点 之 
间 的 对 应 关系 。 所 以 ,如 果 存 在 一 个 伪 查 询 部 件 , 使 得 用 户 每 发 起 一 条 查询 请 求 ,该 部 件 都 
产生 若干 条 包含 相同 用 户 ,不 同 兴趣 点 的 伪 查 询 请 求 , 则 在 逻辑 上 ,我 们 就 把 用 户 对 应 到 了 
多 个 兴趣 点 上 ,攻击 者 也 就 无 法 确定 真实 的 用 户 兴趣 点 了 。 当 然 ,这 种 做 法 的 前 提 是 位 置 服 
务 器 有 足够 的 处 理 能 力 , 来 应 对 成 倍增 加 的 查询 请 求 。 

伪 查 询 模型 的 应 用 场景 是 移动 中 的 用 户 重复 发 起 查询 请 求 , 这 就 要 求 我 们 定义 用 户 的 
移动 。Pingley 认为 可 以 将 地 面 空间 划分 为 子 区 域 , 这 种 划分 并 不 要 求 区 域 具有 特定 的 形状 
和 大 小 , 仅 要 求 各 区 域内 产生 的 历史 查询 请 求 数量 基本 一 致 即 可 。 这 样 一 来 , 便 可 根据 各 兴 
趣 点 的 查询 请 求 的 频数 来 选择 伪 查 询 请 求 的 兴趣 点 。 原 因 是 比较 直观 的 ,如 果 某 个 区 域 产 
生 的 历史 查询 请 求 中 绝 大 多 数 都 与 “酒店 ”相关 ,但 伪 查 询 请 求 的 兴趣 点 却 是 “医院 ”, 攻 击 者 
就 能 以 较 大 的 把 握 推断 出 包含 “医院 ”的 查询 请 求 是 伪造 的 ,从 而 使 模型 失效 。 有 关 区 域 具 
体 如 何 划分 的 问题 不 是 讨论 的 重点 , 故 这 里 不 再 详细 讲解 。 

设 地 面 空间 被 划分 为 包含 相同 历史 查询 请 求 数 的 区 域 C1,C:,… ,Cm, 用 户 的 移动 表示 
为 用 户 在 各 区 域 间 的 切换 ,如 某 个 用 户 的 移动 轨迹 为 C, ,…',C. 。 用 Umi 表 示 用 户 的 兴趣 
点 ,区 域 C; 的 历史 查询 请 求 中 包含 该 兴趣 点 的 数量 记 作 4 (Uwi,Ci)。 那 么 ,为 了 选择 合适 
的 ,不 易 被 攻击 者 识别 的 伪 兴 趣 点 ,需要 选 定 一 个 参数 o, 用 来 表示 攻击 者 所 认为 的 真实 兴 
趣 点 应 该 具有 的 最 小 历史 频数 , 即 对 于 任意 伪 兴 趣 点 Un 只 要 A(Uri'C;) 不 小 于 阔 值 o, 攻 
击 者 便 没 有 理由 推测 Ups 是 伪 兴 趣 点 ,从 而 达到 保护 查询 隐私 的 目的 。 

除 此 之 外 ,还 需要 考虑 查询 隐私 保护 的 程度 ,也 就 是 说 ,需要 选 定 一 个 参数 g, 使 得 用 户 
每 发 起 一 次 查询 请 求 , 伪 查询 部 件 都 同时 产生 9y 一 1 条 包含 不 同 兴 趣 点 的 伪 查 询 请 求 ,如 此 
便 导 致 攻击 者 无 法 从 个 兴趣 点 中 准确 推断 出 真实 的 用 户 兴 趣 点 ,大 大 增强 了 隐私 保护 力 
度 。 为 保持 与 相关 研究 的 一 致 性 ,Pingley 称 基 于 某 条 用 户 轨迹 的 满足 上 述 要 求 的 伪 查 询 是 
9 多 元 的 。 

注意 到 ,yp 多 元 要 求 用 户 轨迹 包含 的 所 有 区 域 C, 都 满足 4(Umi,C ) 宇 o, 但 是 实际 应 用 
场景 并 不 总 能 保证 这 一 点 ,因此 Pingley 还 提出 了 一 项 补充 , 即 给 定 小 于 1 的 正 参 数 6, 如 果 
用 户 轨迹 C, ，,…,C, 这 nn 个 区 域 中 ,有 sz 个 都 满足 yg- 多 元 , 则 称 基于 该 用 户 轨迹 的 伪 查 询 
是 (8,9)- 多 元 的 。 

通过 以 上 两 个 模型 可 以 看 出 ,匿名 模型 在 位 置 服务 中 能 够 在 相当 大 的 程度 上 保护 用 户 
隐私 。 不 论 是 在 位 置 隐私 方面 .还 是 在 查询 隐私 方面 ,匿名 模型 都 可 以 保护 个 人 的 信息 安全 
隐私 ,使 移动 网 络 位 置 服务 更 加 健康 地 运行 。 


7.4 社会 网 络 隐私 保护 


社会 网 络 是 具备 某 些 关系 的 人 的 集合 .个 人 及 其 实际 生活 中 的 交友 关系 、 社 交 媒 体 中 用 
户 及 其 好 友 关 系 都 是 社会 网 络 。 社 会 网 络 的 组 成 部 分 无 非 就 是 个 人 、 人 与 人 之 间 的 关系 等 ， 
个 人 所 处 的 社会 网 络 可 能 还 具有 一 些 区 别 于 他 人 所 处 社会 网 络 的 结构 特性 ,如 社会 活动 家 
的 交际 圈 可 能 大 于 人 群 的 平均 水 平 。 
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当 用 图 来 描述 社会 网 络 时 ,个 人 就 对 应 了 图 中 的 节点 ,人 与 人 之 间 的 关系 就 对 应 了 
的 边 , 而 个 人 所 处 的 社会 网 络 的 特性 则 体现 在 具体 的 图 结构 中 ,如 节点 的 度 、 节 点 之 间 
达 性 、 跳 数 等 。 社 会 网 络 中 的 节点 隐私 包括 以 下 隐私 信息 。 





图 中 
的 可 


(1) 节点 存在 性 。 节 点 存在 性 指 某 个 人 是 否 以 节点 的 形式 出 现在 某 个 社会 网 络 中 ,发 


布 数据 时 应 防止 攻击 者 结合 背景 知识 推测 出 该 人 存在 此 社会 网 络 中 。 


(2) 节点 再 识别 。 在 社会 网 络 中 的 准确 位 置 作为 隐私 信息 。 攻 击 者 基于 背景 知识 对 攻 


击 目标 的 位 置 进行 匹配 识别 的 过 程 称 为 节点 再 识别 。 

(3) 节点 属性 值 。 这 些 属 性 值 描述 了 社会 中 每 个 人 的 真实 信息 ,其 中 某 些 属性 信 
涉及 个 人 隐私 。 

(4) 节点 之 间 的 连接 。 节 点 之 间 的 连接 体现 了 两 个 用 户 之 间 的 关系 ,包括 连接 关 
存在 性 .连接 的 权重 及 连接 的 属性 值 , 也 被 认为 是 一 种 典型 的 隐私 信息 ,需要 对 用 户 关 
行 匿名 化 。 

(5) 节点 图 结构 。 节 点 在 社会 网 络 中 的 图 结构 性 质 在 某 些 情况 下 也 被 视 为 敏感 
私 , 如 节点 的 度 、 两 个 节点 间 的 最 短 距离 ,可 达 性 、 节 点 到 社会 网 络 中 某 个 社区 中 心 
离 等 。 


息 会 


系 的 
系 进 


和 隐 
的 距 


在 社会 网 络 隐私 保护 研究 中 ,攻击 者 所 具有 的 背景 知识 对 隐私 保护 方法 的 设计 具有 重 


大 影响 ,应 当 对 各 种 可 能 进行 归 类 和 充分 讨论 。 攻 击 所 具有 的 知识 类 别 包 括 节 点 信息 、 
息 及 关于 社会 网 络 图 结构 的 信息 ,这 种 图 结构 的 信息 就 非常 丰富 ,主要 有 以 下 几 种 。 

(1) 节点 邻居 图 知识 。 在 社会 网 络 中 ,将 距离 节点 长度 d 之 内 的 所 有 节点 称 为 
d- 邻 居 节 点 。u 的 d- 邻 居 节 点 及 其 相互 之 间 的 边 构 成 的 子 图 称 为 节点 4 的 d- 邻 居 子 图 
种 子 图 信息 在 现实 生活 中 的 社会 网 络 中 体现 为 某 个 人 的 熟人 关系 等 类 型 ,因此 很 容易 
击 者 掌握 。 


边 信 


& 的 
。 这 
被 攻 


(2) 子 图 知识 。 子 图 知识 是 指 一 些 具有 特殊 连接 模式 的 子 图 ,如 结构 唯一 性 子 图 等 。 
在 现实 的 社会 网 络 中 ,通常 就 是 一 些 特殊 结构 ,如 家 庭 成 员 之 间 连 接 权重 远大 于 其 他 人 员 ， 


是 一 种 经 验 知 识 , 可 以 作为 攻击 者 的 背景 知识 。 
(3) 通过 图 查询 而 获得 的 知识 ,在 社会 网 络 中 可 以 执行 多 种 图 查询 ,而 针对 某 些 节 
者 边 的 图 查询 结果 具有 唯一 性 ,从 而 为 攻击 者 提供 了 进行 隐私 攻击 的 背景 知识 。 


除了 这 些 来 自 图 中 的 信息 外 ,关于 攻击 者 的 预测 攻击 方法 也 是 一 个 需要 考虑 的 因素 。 


攻击 者 可 以 使 用 基于 社会 网 络 常识 构建 预测 模型 ,从 而 推演 目标 的 隐私 信息 。 特 别 是 


人 际 


网 络 中 的 一 些 理论 或 经 验 结果 ,是 构建 攻击 模型 的 重要 依据 。 例 如 ,如 果 两 个 人 具有 很 多 共 


同 朋 友 , 则 他 们 也 很 有 可 能 是 朋友 ,具有 朋友 关系 的 实体 具有 相同 或 相似 的 属性 值 , 朋 
朋友 是 朋友 等 。 


友 的 


针对 上 述 提 到 的 社会 网 络 隐私 信息 ,相应 的 ,社会 网 络 隐私 保护 方法 有 节点 匿名 、 子 
图 人 匿名、 数据 扰乱 等 多 种 方法 ,在 设计 具体 方法 时 ,需要 考虑 攻击 者 所 拥有 的 不 同 背 景 


知识 。 


前 两 种 方法 的 主要 思想 是 攻击 者 基于 目标 背景 知识 在 匿名 化 社会 网 络 数据 中 进行 匹配 


识别 时 ,保证 至 少 有 “个 候选 符合 . 即 目标 的 隐私 泄露 概率 小 于 1/&。 子 图 人 匿名 是 指 
击 者 将 目标 所 在 的 特定 子 图 作为 背景 知识 进行 隐私 攻击 时 ,社会 网 络 中 至 少 有 个子 
作为 候选 , 则 目标 子 图 导致 隐私 泄露 的 概率 小 于 1 人 ,这 种 图 称 为 全 匿名 子 图 。 实 现 子 


图 可 
图 大 





第 7 章 ”大 数据 隐私 保护 ( 213 


匿名 的 方法 有 在 社会 网 络 中 加 伪 点 、 加 伪 边 、 删 除 边 、 概 括 等 ; 而 数据 扰乱 的 主要 思想 是 对 
社会 网 络 进行 随机 化 修改 ,使 得 攻击 者 不 能 准确 地 推测 出 原始 真实 数据 。 数 据 扰乱 方法 具 
体 分 为 数值 扰乱 和 图 结构 扰乱 。 

Hay 等 人 认为 ,为 了 保护 形 如 图 7-11 的 社会 网 络 的 个 人 隐私 ,一 种 原始 的 方法 是 直接 
对 显 标识 符 做 匿名 处 理 ,得 到 图 7-12 的 匿名 社会 网 络 。 不 具备 任何 背景 知识 的 攻击 者 若 要 
从 匿名 社会 网 络 中 找 出 某 个 个 体 , 如 Bob, 他 将 没有 理由 认为 其 中 任何 一 个 节点 为 Bob 的 概 
率 比 其 他 节点 大 或 小 ,而 这 正 是 因为 背景 知识 的 匮乏 。 所 以 ,攻击 者 认为 图 中 所 有 节点 都 是 
等 可 能 代表 Bob 的 ,该 匿名 社会 网 络 满足 8- 匿 名 。 但 是 当 攻 击 者 具备 某 些 背 景 知识 时 , 情 
况 就 会 发 生 改 变 。 例 如 ,攻击 者 知道 Greg 与 两 个 度 为 2 的 节点 有 直接 联系 , 则 匿名 社会 网 
络 图 中 只 有 节点 4 符合 要 求 , 这 样 就 泄露 了 隐私 。 








Alice Bob Carol 6 8 5 
Dave Ed 四 2 
Fred Greg Harry 3 4 L 
图 7-11 社会 网 络 图 图 7-12 匿名 社会 网 络 图 


为 了 防止 这 种 节点 再 识别 攻击 ,Hay 提出 了 图 泛 化 的 方法 。 图 泛 化 是 指 将 社会 网 络 中 
所 有 节点 聚 类 成 若干 超 点 ,其 中 每 个 超 点 至 少 包含 上 个 节点 ,由 于 在 超 点 中 节点 相互 之 间 不 
可 区 分 ,因此 在 该 社会 网 络 中 , 受 节点 再 识别 攻击 而 导致 隐私 泄露 的 概率 不 超过 二 。 
图 7-13 的 2- 匿 名 超 点 社会 网 络 图 就 是 图 泛 化 方法 的 一 个 实例 ,社会 网 络 图 中 的 8 个 节点 被 
划分 为 3 个 方形 的 超 点 ,图 中 的 圆 点 表示 超 点 包含 的 原始 节点 , 超 点 中 的 数字 表示 该 超 点 中 
节点 之 间 的 边 数 ,而 超 点 之 间 的 边 的 权重 表示 连接 两 个 超 点 中 的 原始 节点 的 边 数 。 因 此 ,对 
于 图 7-13 来 说 ,就 有 两 个 超 点 满足 3- 匿 名 ,而 第 三 个 超 点 满足 2- 匿名 ,因此 整个 社会 网 络 





























图 就 是 2- 匿 名 的 。 | 
节点 聚集 成 超 点 导致 了 边 两 端 节点 的 信息 损失 , 增 2 

加 了 图 结构 不 确定 性 ,也 降低 了 数据 可 用 性 。 因 此 在 超 IN 

图 中 ,节点 及 连接 边 需要 增加 哪些 额外 的 信息 ,就 取决 于 S55 5 

对 社会 网 络 数据 分 析 需 求 。 | 
接 下 来 介绍 一 下 数据 扰乱 的 基本 思想 。 Ee 


它 是 通过 对 社会 网 络 图 进行 随机 化 修改 ,使 得 攻击 
者 不 能 准确 推测 出 原始 真实 数据 ,从 而 起 到 保护 社会 网 络 数据 隐私 的 作用 ,有 以 下 两 种 数据 
扰乱 的 思路 。 

(1) 数值 扰乱 。 该 方法 主要 用 于 为 加 权 图 中 的 边 权 重 提供 隐私 保护 。 

(2) 图 结构 扰乱 。 该 方法 随机 地 进行 图 数据 扰乱 和 修改 ,阻止 攻击 者 获知 原始 图 结构 ， 
从 而 保护 社会 网 络 数据 隐私 。 

但 是 在 数据 扰乱 时 ,并 不 是 能 够 随意 地 对 数值 或 结构 进行 修改 。 需 要 考虑 的 因素 有 : 
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四 保持 指定 节点 对 的 最 短路 径 序列 及 其 大 小 不 变 , 确 保 数 据 可 用 性 ; 四 加 扰 噪 声 需 要 达到 
一 定 程度 ,以 至 于 能 对 边 权重 产生 一 定 影响 ,避免 泄露 边 权 重 隐私 ,这 是 确保 隐私 度 的 问题 。 

因此 ,对 于 扰动 修改 需要 有 一 定 的 控制 手段 。 对 于 数值 扰动 中 的 修改 边 权 重 , 可 以 采用 
一 定 的 噪声 分 布控 制 方法 。 在 边 权 重 中 加 入 高 斯 噪声 进行 扰乱 ,使 得 

wi= ui(1 一 2i) (7-12) 

其 中 ,wf ww; 分 别 表示 边 i 的 扰乱 后 权重 和 初始 权重 ; zx; 表示 所 加 入 的 噪声 ,zx; 服从 高 斯 分 
布 z~N(0,6)。 

而 关于 图 结构 的 扰乱 ,主要 方法 有 随机 添加 、 删 除 边 和 交换 边 端点 等 。 为 了 保持 图 性 质 
和 图 数据 可 用 性 ,需要 研究 进行 图 扰乱 的 同时 如 何 保持 图 谱 基本 不 变 。 很 多 图 性 质 均 与 图 
谱 相关 ,如 平均 最 短路 径 、 社 团结 构 、 传 递 性 等 ,都 是 需要 考虑 的 因素 。 

现在 来 考虑 社会 网 络 匿名 化 的 另外 一 个 研究 方向 安全 云 计 算 。 在 计算 机 网 络 课程 
中 学 习 过 ,数据 在 网 络 中 是 通过 路 由 器 的 不 断 接收 、 转 发 来 传输 的 ,因此 网 络 中 两 台 设 备 间 
的 通信 会 受到 路 由 节点 拥塞 程度 、 链 路 距离 等 因素 的 影响 ,不 同 的 路 由 显然 会 导致 不 同 的 时 
延 , 进 而 影响 网 络 体验 。 于 是 ,网 络 服务 提供 商 可 能 主动 为 用 户 选择 特定 的 路 由 ,以 降低 整 
体 网 络 时 延 ,提高 网 络 整体 运行 效率 。 然 而 随 着 用 户 基 数 不 断 增 大 ,网 络 服务 提供 商 面临 的 
路 由 选择 的 需求 也 不 断 脱 胀 ,受制 于 有 限 的 处 理 能 力 ,网络 服务 提供 商 可 能 将 一 部 分 路 由 计 
算 任务 分 配 到 云 服 务 器 ,从 而 改善 计算 资源 配置 ,提高 路 由 计算 效率 。 

但 是 ,路 由 计算 任务 的 外 包 意 味 着 网 络 服务 提供 商 需要 不 断 向 云 服 务 器 提供 实时 网 络 
时 延 状况 ,如 图 7-14 所 示 , 其 中 节点 表示 路 由 器 , 边 的 权重 表示 传输 时 延 。 如 果 节 点 间 的 连 
接 关系 被 视 为 隐私 信息 , 且 云 服务 器 不 可 信 , 那 么 直接 将 其 提供 给 云 服 务 器 就 有 较 大 的 隐私 
泄露 风险 。Gao 等 人 首次 正式 提出 这 一 问题 : 怎样 在 不 泄露 隐私 的 情况 下 ,利用 云 计 算 实 
现 高 效 、 复 杂 的 计算 。 

















图 7-14 实时 网 络 时 延 图 


Gao 等 人 以 计算 节点 间 的 最 短路 径 为 例 , 对 该 问题 进行 了 研究 。 首 先 . 交 付 到 不 可 信 的 
云 服务 器 的 数据 可 以 是 经 过 一 定 处 理 的 实时 网 络 时 延 图 ,只 要 将 最 短路 径 的 计算 误差 控制 
在 一 定 范围 内 即 可 。Gao 等 人 认为 ,邻居 节点 是 重要 的 隐私 信息 ,因为 邻居 节点 一 旦 泄露 
攻击 者 就 可 能 推断 出 整个 图 结构 ,事实 上 ,所 发 布 的 图 结构 中 如 果 不 包 括 任何 原始 图 中 的 邻 
居 节 点 对 ,攻击 者 就 很 难 推出 真实 的 图 结构 了 。 例 如 ,发布 的 图 中 的 相 邻 节点 在 原始 图 中 之 
间 至 少 隔 & 跳 , 图 7-15 便 是 一 个 实例 。 
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图 7-15 1 邻居 2- 半 径 时 延 图 


在 图 7-15 中 ,5,/ ,有 ,5,0 ,7 分 别 代表 原始 图 中 的 节点 5,/ ,hv,0,i, 边 两 端的 节点 对 
在 原始 图 中 的 距离 都 是 两 跳 , 边 权重 表示 这 两 跳 的 时 延 总 和 。 这 样 一 来 ,网 络 服务 提供 商 既 
保护 了 网 络 图 结构 的 隐私 ,又 在 一 定 程度 上 达到 了 利用 云 服务 器 高 效 计算 最 短路 径 的 目的 。 
但 是 此 时 求 得 的 最 短路 径 并 不 严格 对 应 原始 图 中 的 最 短路 径 ,问题 的 解决 往往 是 在 两 个 其 
至 多 个 目标 之 间 的 某 种 权衡 。 


思考 题 


.隐私 保护 的 目的 是 什么 ? 
.怎么 评价 不 同 隐私 保护 方法 的 好 坏 ? 
. 什么 是 泛 化 路 径 图 ,有 什么 作用 ? 
.基于 划分 的 泛 化 方法 适用 于 什么 类 型 的 数据 ,为 什么 ? 
. 位 置 隐私 保护 中 除了 对 位 置 点 进行 匿名 保护 外 ,位 置 点 按照 时 间 次 序 所 形成 的 轨迹 
是 否 也 会 引起 个 人 敏感 属性 的 泄露 ,请 设计 针对 这 种 信息 的 隐私 保护 方法 。 
6. 对 社会 网 络 结构 图 进行 加 点 干扰 ,请 分 析 所 增加 的 点 应 当 具 有 什么 特征 。 


an 这 mo 


二 第 8 意 
\ 大 数据 技术 平台 





本 章 主 要 介绍 常见 的 大 数据 处 理 与 分 析 平 台 ,侧重 于 技术 平台 的 原理 与 功能 ,包括 在 大 
数据 结构 化 处 理 ,挖掘 、 分 类 、 回 归 、 预 测 及 数据 可 视 化 方面 的 选择 。 既 涉及 开源 系统 ,也 涉 
及 服务 平台 ; 既 有 专门 面向 某 个 过 程 的 独立 系统 ,也 有 面向 整个 大 数据 处 理 与 应 用 的 集成 系 
统 技 术 。 基 于 这 些 平台 技术 ,介绍 平台 的 功能 、 对 大 数据 分 析 、 模 型 和 算法 的 支持 等 ,目的 是 
让 读者 了 解 大 数据 技术 平台 的 构成 与 选择 方法 。 


8.1 概述 


从 互联 网 大 数据 的 生命 周期 看 ,其 处 理 过 程 可 以 分 为 大 数据 获取 、 存 储 、 结 构 化 处 理 、 挖 
据 、 结 果 展 示 ,数据 发 布 等 。 针 对 这 些 过 程 相 应 地 有 很 多 算法 和 模型 可 以 解决 ,并 且 为 了 最 
终 用 户 的 使 用 方便 ,它们 大 都 被 进一步 的 封装 ,形成 了 比较 简单 易 用 的 操作 平台 。 不 同 的 大 
数据 技术 平台 提供 了 对 这 些 处 理 过 程 的 支持 ,有 的 平台 可 能 会 支持 多 个 过 程 ,但 是 侧重 点 不 
同 , 支 持 的 深度 也 有 所 不 同 , 因 此 有 必要 熟悉 各 种 平台 的 功能 ,并 做 出 比较 分 析 , 以 便 在 实际 
应 用 中 选择 适合 于 自己 需求 的 技术 平台 。 

选择 一 个 合适 的 大 数据 技术 平台 是 非常 重要 的 , 它 能 够 使 大 数据 应 用 开发 更 加 容易 ,让 
开发 人 员 更 集中 精力 在 业务 层面 的 数据 分 析 与 处 理 上 。 一 些 共性 的 基础 问题 ,如 数据 如 何 
存储 、 如 何 检索 ,数据 统计 等 ,就 可 以 由 平台 来 完成 。 选 择 合适 的 大 数据 技术 平台 应 当 考 虑 
以 下 几 个 方面 的 因素 。 

1. 平台 的 功能 与 性 能 

由 于 不 同 平台 侧重 的 功能 不 同 , 平 台 的 性 能 也 就 有 很 多 需要 考查 的 方面 。 例 如 ,对 于 存 
储 平台 来 说 ,数据 的 存储 效率 、 读 写 效率 、 并 发 访问 能 力 、 对 结构 化 与 非 结构 化 数据 存储 的 支 
持 , 所 提供 的 数据 访问 接口 等 方面 都 是 比较 重要 的 。 对 于 大 数据 挖掘 平台 来 说 ,所 支持 的 挖 
掘 算法 .算法 的 封装 程度 ,数据 挖掘 结果 的 展示 能 力 、 控 掘 算法 的 时 间 和 空间 复杂 度 等 是 比 
较 重要 的 指标 。 

2. 平台 的 集成 度 

好 的 平台 应 该 具有 较 高 的 集成 度 ,为 用 户 提供 良好 的 操作 界面 ,具有 完善 的 帮助 和 使 用 
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手册 、 系 统 易于 配置 、 移 植 性 好 。 同 时 随 着 目前 软件 开源 的 趋势 ,开源 平台 有 助 于 其 版 本 的 
快速 升级 ,尽快 发 现 其 中 的 Bug, 此 外 ,开源 的 架构 也 比较 容易 进行 扩展 , 植 人 更 多 的 新 算 
法 ,这 对 于 最 终 用 户 而 言 也 是 比较 重要 的 。 

3. 是 否 符合 技术 发 展 趋势 

大 数据 技术 是 当前 发 展 和 研究 的 热点 ,其 最 终 将 走向 逐步 成 熟 ,可 以 预见 在 这 个 过 程 
中 ,并 非 所 有 的 技术 平台 都 能 生存 下 来 。 只 有 符合 技术 发 展 趋势 的 技术 平台 才 会 被 用 户 、 被 
技术 开发 人 员 所 接受 。 因 此 ,一 些 不 支持 分 布 式 、 集 群 计算 的 平台 大 概 只 能 针对 较 小 的 数据 
量 , 侧 重 于 对 挖掘 算法 的 验证 。 而 与 云 计算 、 物 联网 .人 工 智 能 联系 密切 的 技术 平台 将 成 为 
主流 ,是 技术 发 展 的 趋势 。 


8.2 大 数据 技术 平台 的 分 类 


目前 大 数据 技术 平台 有 很 多 ,归纳 起 来 可 以 按照 以 下 方式 进行 分 类 。 

(1) 从 大 数据 处 理 的 过 程 来 划分 。 可 以 分 为 数据 采集 `ETL、 存 储 、` 结 构 化 处 理 、 挖 掘 、 
分 析 、 预 测 、 隐 私处 理 、 应 用 等 功能 。 面 向 这 些 不 同 功 能 的 平台 一 般 涉 及 数据 存储 数据 挖掘 
分 析 , 以 及 为 完成 高 效 分 析 挖 掘 而 设计 的 计算 平台 。 

(2) 从 大 数据 处 理 的 数据 类 型 来 划分 ,可 以 分 为 针对 关系 型 数据 , 非 关系 型 数据 (图 数 
据 \ 文 本 数据 ,连接 型 数据 等 ). 半 结构 化 数据 ` 混 合 类 型 数据 处 理 的 技术 平台 。 

(3) 从 大 数据 处 理 的 方式 来 划分 ,可 以 分 为 批量 处 理 ` 实 时 处 理 、 综 合 处理 。 其 中 批量 
处 理 是 对 成 批 数据 进行 一 次 性 处 理 , 实 时 处 理 对 处 理 的 延 时 有 严格 的 要 求 ,而 综合 处 理 是 指 
同时 具备 批量 处 理 和 实时 处 理 两 种 方式 。 

(4) 从 平台 对 数据 的 部 署 方式 来 划分 ,可 以 分 为 基于 内 存 的 和 基于 磁盘 的 。 前 者 在 分 
布 式 系统 内 部 的 数据 交换 是 在 内 存 中 进行 ,后 者 则 是 通过 磁盘 文件 的 方式 进行 。 

此 外 ,技术 平台 还 有 分 布 式 和 集中 式 之 分 、 云 环境 和 非 云 环境 之 分 等 。 

本 章 其 余 的 内 容 就 围绕 大 数据 存储 平台 、 计 算 分 析 平 台 、 可 视 化 工具 展开 。 大 数据 隐私 
保护 工具 或 平台 也 是 非常 关键 .但 由 于 目前 尚 没有 合适 的 或 广泛 应 用 的 ,因此 ,本 章 没 有 对 
此 进行 描述 。 实 际 的 开源 平台 并 不 一 定 只 完成 大 数据 处 理 的 某 一 个 方面 ,而 是 具备 一 定 的 
集成 性 ,因此 除了 介绍 若干 种 具有 独立 功能 的 平台 外 ,还 介绍 Hadoop、Spark 和 阿里 云 大 数 
据 平台 3 种 典型 的 集成 式 大 数据 平台 。 


8.3 大 数据 存储 平台 


大 数据 存储 平台 提供 了 对 采集 到 的 及 处 理 过程 中 临时 生成 的 各 种 大 数据 信息 内 容 的 存 
储 , 它 可 以 分 为 两 个 层面 , 即 文件 系统 层面 和 数据 库 层 面 。 在 数据 库存 储 层面 ,主要 包括 结 
构 化 数据 , 非 结构 化 数据 存储 时 需要 考虑 的 因素 ,以 及 针对 若干 种 典型 的 非 结构 化 数据 存储 
方式 ,包括 文本 数据 .图 数据 ,位 置 数据 等 。 本 节 主 要 介绍 各 种 SQL 和 NoSQL ,数据 库存 储 
及 开源 系统 与 平台 。 


8.3.1 大 数据 存储 需要 考虑 的 因素 
大 数据 的 来 源 形式 多 样 化 , 既 有 传统 企业 的 结构 化 历史 数据 ,也 有 各 个 平台 的 数据 (如 
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淘宝 、 京 东 、Facebook 等 免费 公开 的 数据 ), 还 有 自己 购买 的 数据 (如 微软 平台 为 一 些 行业 提 
供 了 标准 数据 作为 分 析 参 考 ), 也 有 一 大 部 分 数据 是 从 Web 网 站 上 抓 取 的 。 随 着 互联 网 大 
数据 时 代 的 到 来 ,有 效 地 存储 这 些 大 数据 ,包括 结构 化 和 非 结构 化 数据 甚 为 重要 。 所 谓 有 效 
存储 应 当 从 多 个 角度 来 理解 。 

(1) 数据 类 型 的 考虑 。 互 联网 大 数据 的 数据 类 型 多 样 , 这 些 数 据 既 包含 结构 化 数据 ,也 
包含 半 结 构 化 、 非 结构 化 数据 ,对 象 关系 存在 复杂 的 形式 。 从 形式 上 看 ,可 以 是 文本 类 型 的 
数据 ,位 置 型 数据 及 社交 网 络 的 连接 型 数据 等 ,这 些 都 是 典型 的 非 结构 化 数据 。 数据 存储 效 
率 是 一 个 重要 的 因素 ,在 一 定 的 存储 空间 中 存储 尽量 多 的 数据 ,就 决定 了 要 选择 合适 的 数据 
管理 系统 ,而 不 是 把 所 有 数据 都 存储 在 关系 型 数据 库 中 。 

(2) 存储 的 数据 量 。 大 数据 的 其 中 两 个 特征 就 是 体积 很 大 、 数 据 生成 的 速度 很 快 ,在 各 
类 网 上 应 用 中 ,数据 时 时 刻 刻 都 在 产生 ,数据 量 巨大 ,变化 率 高 。 在 设计 存储 时 就 需要 考虑 
数据 的 全 量 和 数据 的 增 量 ,进行 容量 规划 。 

(3) 计算 能 力 。 数 据 的 存储 要 有 利于 后 续 的 各 种 数据 运算 。 在 传统 的 结构 化 数据 中 ， 
通常 采用 SQL 语言 对 存储 在 关系 数据 库 中 的 数据 进行 查询 ,但 是 针对 非 结构 化 数据 ,情况 
就 不 同 了 。 其 计算 需求 包括 查询 ,更 新 插入、 分 析 挖掘 ,其 中 查询 和 分 析 挖 掘 将 是 主要 的 数据 
操作 。 例 如 ,对 于 位 置 型 数据 ,其 主要 的 运算 是 位 置 的 距离 运算 、 多 个 位 置 所 形成 的 轨迹 及 其 
相似 性 分 析 等 ,而 这 些 显 然 不 是 关系 型 数据 库 所 擅长 的 。 因 此 ,目前 业界 对 大 数据 存储 大 多 采 
用 的 是 混合 模式 , 即 关系 型 数据 库 和 NoSQL 模式 并 存 .分 布 式 和 传统 单机 存储 共存 。 

1. 结构 化 数据 存储 

结构 化 数据 是 指 具 有 统一 的 结构 ,如 最 常见 的 二 维 表 的 关系 ,关系 型 数据 库 在 过 去 的 几 
十 年 内 得 到 了 广泛 的 应 用 和 发 展 。 

作为 结构 化 数据 的 存储 载体 .关系 型 数据 库 中 通常 包含 表 、 视 图 字段、 存储 过 程 ` 索 引 
等 ,而 最 基础 的 是 表 。 表 的 存储 在 数据 库 中 一 般 分 为 元 数据 存储 和 实际 的 表 数 据 存 储 。 元 
数据 一 部 分 用 于 描述 表 的 结构 信息 , 即 表 的 存储 大 小 ,起 始 位 置 .字段 的 属性 结构 、 表 的 所 属 
权限 ; 男 一 部 分 则 是 实际 的 每 行 的 元 组 存储 。 表 一 般 在 逻辑 上 存储 需要 满足 一 定 的 三 范式 
要 求 ,属性 之 间 需 要 有 一 定 的 约束 关系 。 表 的 每 一 行 就 是 一 个 记录 或 元 组 ; 而 表 的 每 个 属 
性 或 字段 ,包括 字段 类 型 说 明 , 如 字符 型 .数字 型 等 ,还 有 具体 的 大 小 ; 索引 常用 的 有 聚集 索 
引 、 非 聚集 索引 ,其 数据 结构 常见 的 有 基于 喻 希 的 索引 和 基于 树 的 索引 。 表 需要 支持 DDL、 
DML 等 运算 。 

在 表 的 存储 设计 上 ,有 时 单 张 表 的 存储 量 特别 大 ,如 有 几 十 GB, 甚 至 几 百 GB、 几 个 TB 
左右 的 数据 量 ,通常 会 对 数据 的 查询 效率 有 一 定 要 求 ,这 往往 牵涉 一 些 数据 表 和 结构 的 优 
化 。 优 化 的 关键 是 减少 系统 IO 的 开销 ,这 些 优化 一 般 有 多 种 途径 。 其 一 是 索引 优化 , 通 
过 对 单个 或 多 个 属性 建立 一 级 .二 级 ,甚至 多 级 属性 来 提高 效率 ; 其 二 是 对 表 进 行 分 库 、 分 
区 、 分 表 , 采 用 哈 希 等 ,避免 I/O 需求 高 的 数据 存放 在 同一 个 物理 介质 中 ; 其 三 就 是 增加 机 
器 的 缓存 ,以 提高 缓存 命中 率 。 

结构 化 数据 存储 的 重要 特性 是 原子 性 、 一 致 性 .隔离 性 .持久 性 ,简称 ACID。 目 前 关系 
型 数据 库 , 如 Oracle、.MySQL 、PostgreSQL 等 ,都 实现 了 对 ACID 的 支持 。 以 下 简单 介绍 这 
些 特性 的 含义 。 

(1) 原子 性 是 指 事务 中 包含 的 程序 作为 数据 库 的 逻辑 工作 单位 , 它 所 做 的 数据 修改 操 
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作 要 么 全 部 执行 ,要 么 全 部 不 执行 。 

(2) 一 致 性 是 指 在 一 个 事务 执行 之 前 和 执行 之 后 ,数据 库 都 必须 处 于 一 致 性 状态 。 

(3) 隔离 性 是 指 在 并 发 情况 下 ,保证 每 一 个 事务 看 到 的 数据 都 是 一 致 性 的 。 

(4) 持久 性 是 指 一 旦 事务 提交 ,DBMS 将 保障 已 提交 的 事务 的 更 新 不 会 丢失 。 

为 了 实现 ACID 特性 ,在 关系 型 数据 库 管 理 系统 中 需要 采用 复杂 的 技术 。 例 如 ,隔离 性 
的 实现 采用 锁 机 制 ,如 悲观 锁 、 乐 观 锁 ,这 种 锁 又 在 数据 库 中 对 对 象 分 为 不 同 级 别 的 锁 ,如 表 
级 锁 , 行 级 锁 等 。 持 久 性 的 实现 多 依赖 于 对 系统 中 断 或 故障 进行 回 滚 ,使 得 数据 状态 被 回 滚 
到 上 一 个 已 知 的 良好 配置 。 

这 些 特 性 的 目的 是 要 保证 数据 操作 的 安全 进行 ,在 大 数据 中 由 于 数据 量 巨 大 ,是 否 一 定 
需要 ACID 特性 的 数据 存储 系统 就 需要 充分 考虑 ,否则 容易 影响 数据 读 写 效率 。 

2. 非 结构 化 数据 存储 

不 方便 用 数据 库 二 维 迎 辑 表 来 表现 的 数据 称 为 非 结构 化 数据 ,包括 所 有 格式 的 办 公文 
档 、 文 本 内 容 、 图 片 ,标准 通用 标记 语言 下 的 子 集 XML、HTML、 各 类 报表 、 图 像 和 音频 / 视 
频 信息 ,以 及 在 LBS( 基 于 位 置 的 服务 ) 中 广泛 使 用 的 位 置 型 数据 ,人际 社 交 网 络 中 的 连接 
型 数据 等 。 

在 传统 的 关系 型 数据 库 应 用 中 ,对 于 非 结构 化 数据 通常 采用 两 种 模式 来 进行 存储 。 一 
种 是 将 非 关 系 型 数据 存储 在 文件 系统 中 ,而 后 将 这 种 文件 的 目录 位 置 存放 在 数据 表 中 ; 另 
外 一 种 模式 则 是 将 非 关系 型 数据 以 BLOB(Binary Large Object) 等 类 似 的 数据 类 型 存放 在 
单独 字段 属性 中 ,但 是 这 种 模式 常常 会 太 依赖 于 关系 数据 库 的 Schema', 并 且 也 不 利于 检索 
和 在 这 种 类 型 数据 上 的 运算 。 

随 着 互联 网 Web 2. 0 网 站 的 兴起 ,为 了 应 付 Web 2.0 应 用 中 产生 的 各 种 数据 存储 分 
析 , 非 关系 型 的 数据 库 则 由 于 其 本 身 的 特点 得 到 了 迅速 发 展 。NoSQL 数据 库 的 产生 就 是 为 
了 解决 大 规模 数据 集合 中 多 重 数据 种 类 带 来 的 挑战 ,尤其 是 大 数据 应 用 难题 。 

与 传统 数据 库 的 ACID 特性 相对 应 ,NoSQL 的 特性 是 CAP、BASE 和 最 终 一 致 性 。 
CAP 中 C 是 指 一 致 性 (Consistency) ,也 就 是 在 分 布 式 环境 中 ,多 点 上 的 数据 是 一 致 的 ; A 
是 指 可 用 性 (Availability) , 即 要 求 有 好 的 响应 性 ; P(Partition tolerance) 即 分 区 容错 性 ,是 
指 节点 可 扩展 。 而 BASE 是 指 Basically Available,Soft state.Eventual consistency, 称 为 基 
本 可 用 、 软 状态 .最 终 一 致 性 。 最 终 一 致 性 可 以 理解 为 在 分 布 式 中 , 随 着 时 间 的 推移 ,各 个 节 
点 的 数据 状态 会 最 终 达 到 一 致 性 ,一 般 分 为 更 新 一 致 性 和 读 取 一 致 性 。 

在 这 些 特 性 的 限定 下 ,NoSQL 采用 聚合 模式 的 数据 模型 。 一 方面 ,聚合 在 集群 运算 上 
具有 优势 ,因为 它 可 以 把 相关 的 数据 放 到 同一 个 节点 ,同时 以 聚合 的 数据 作为 操作 单元 ,在 
事务 处 理 上 能 更 好 地 保证 一 致 性 。 另 一 方面 , 随 着 数据 量 的 增多 ,基于 成 本 .可 用 性 和 故障 
常态 性 的 考虑 ,NoSQL 由 于 聚合 的 数据 模型 ,非常 适合 横向 扩展 ,自然 也 采用 了 分 布 式 模 
型 ,其 主要 特征 是 复制 和 分 片 两 种 方式 。 

NoSQL 一 般 有 四 大 类 : 键 值 存储 数据 库 、 文 档 数 据 库 、 图 形 数据 库 和 列 式 数 据 库 。 键 
值 数 据 库 常用 的 有 Redis、Memcached .VoltDB.、Riak; 文档 数据 库 有 Couchbase、CouchDB、 
MongoDB; 图 形 数 据 库 有 HypergraphDB、InifiniteGraph、Neo4J、OrientDB 等 ; 列 式 数据 
库 有 HBase、Cassandra 等 。 

以 上 4 种 NoSQL 的 数据 库 的 优 劣 比较 如 表 8-1 所 示 。 
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表 8-1 4 种 NoSQL 的 数据 库 比较 




















分 类 典型 应 用 场景 数据 模型 优点 缺点 

内 容 缓 存 .主要 用 - 
键 值 (Key Value) | 于 处 理 大 量 数据 的 | ”指向 Value 的 

键 值 对 , 通常 用 | 查找 速度 快 常 只 被 当 作 字符 串 
存储 数据 库 高 访问 负载 ,也 用 | hash wabie 来 实现 a 

于 一 些 日 志 系 统 等 

- 以 列 簇 式 存储 ,将 | 查找 速度 快 ,可 扩 
列 式 存储 数据 库 的 文 作 | 同一 列 数据 存在 | 展 性 强 ,更 容易 进 | 功能 相对 局 限 
一 起 行 分 布 式 扩展 

Web 应 用 (与 Key 数据 结构 要 求 不 严 

Value 类 似 , Value | Key-Value 对 应 的 | 格 , 表 结 构 可 变 , 不 | 查询 性 能 不 高 ,而 
文档 数据 库 是 结构 化 的 ,不 同 | 键 值 对 , Value 为 | 需要 像 关 系 型 数据 | 且 缺 乏 统一 的 查询 

的 是 数据 库 能 够 了 | 结构 化 数据 库 一 样 需要 预先 定 | 语法 

解 Value 的 内 容 ) 义 表 结 构 

社交 网 络 ,推荐 系 很 多 时 候 需 要 对 整 

at 利用 图 结构 相关 : 

国 冻 XGiapby 数 | 和 等 /专注 于 构建 算法 ,如 最 短路 径 | 个 图 做 计算 才能 得 
a 关系 图 谱 。 图 数 | 图 结构 村 址 N 度 关系 查 | 出 需要 的 信息 ,而 且 

据 库 更 适合 关系 拓 了 这 种 结构 不 太 好 做 

复杂 的 数据 结构 分 布 式 的 集群 方案 














8.3.2 HBase 


HBase 是 一 个 分 布 式 面向 列 存储 的 开源 数据 库 。 它 和 一 般 的 关系 数据 库 不 同 , 主要 
是 基于 列 而 不 是 行 的 模式 ,同时 提供 了 多 种 系统 接口 ,这 些 接口 主要 有 Native Java API、 
HBase Shell.Thrift Gateway、REST Gateway、Pig、Hive 等 ,它们 使 HBase 可 以 很 方便 地 融 
入 多 平台 中 做 二 次 开发 使 用 。 

HBase 是 Hadoop 数据 库 , 它 的 分 布 式 是 基于 Google 文件 系统 (GFS) 的 分 布 式 数据 存 
储 , 提 供 了 在 Hadoop 和 HDFS 之 上 的 像 Bigtable 的 处 理 能 力 。 在 著名 Bigtable 论文 中 给 
出 了 其 数据 管理 模式 。 每 个 表 包 含 了 一 个 Tablet 的 集合 ,而 每 个 Tablet 的 信息 存储 在 一 
个 三 层 的 .类似 B 十 树 的 结构 存储 中 ,如 图 8-1 所 示 。 


UserTablel 










Other 
METADATA 
tablets 


Roottablet |- 
(lstMETADATA 
tablet) 





Chubby file 






UserTableN 




















图 8-1 Tablet 的 位 置信 息 的 分 层 存 储 结构 
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HBase 是 面向 列 的 ,而 且 是 无 模式 的 , 它 的 列 是 可 以 动态 增加 的 , 表 可 以 非常 稀 琉 , 数 
据 可 以 有 多 个 时 间 戳 、 多 个 版 本 ,每 张 表 可 以 十 分 的 巨大 ,这 些 都 使 它 方便 横向 扩展 和 存储 ， 
适合 海量 存储 。HBase 的 逻辑 模型 如 表 8-2 所 示 , 其 中 , 行 键 是 字符 串 , 是 表 的 主键 ; 时 间 
截 用 于 区 分 多 个 版 本 ,默认 的 都 是 系统 时 间 截 ,用 户 也 可 以 自己 定义 时 间 截 ; HBase 的 每 个 
列 都 属于 某 个 列 族 , 其 需要 事先 在 Schema 中 定义 , 列 在 列 族 中 的 定义 都 需要 加 上 列 名 作为 





前 级 。 


表 8-2 HBase 的 逻辑 模型 





行 键 (Row Key) 


时 间 惟 CTimestamp) 


列 族 (Column Family) 


列 族 (Column Family) 





url=http://www. baidu. com 


title 





ur2=http://www. sohu. com 














HBase 适合 于 大 数据 量 存储 、 对 数据 的 高 并 发 操作 、 随 机 读 写 等 场景 ; 它 经 常 应 用 于 对 
热点 数据 的 查询 和 处 理 及 实时 响应 等 ,最 常用 的 一 种 情况 是 将 很 多 离线 数据 放 和 人 Hive 等 


离线 计算 系统 中 ,然后 将 用 户 常用 的 


际 系统 对 此 有 应 用 。 


在 二 次 开发 和 数据 分 析 方 面 ,目前 开源 社区 中 ,一 方面 主要 集中 在 对 HBase 客户 端的 
类 SQL 解析 器 的 开发 上 ,其 目的 是 使 统计 分 析 人 员 可 以 像 使 用 SQL 一 样 ,利用 简单 的 语句 
就 可 以 得 到 统计 分 析 结 果 , 此 类 比较 典型 的 是 Phoenix, 它 提供 了 一 套 类 似 SQL 查询 的 界 
面 ,便于 使 用 和 安装 。 另 一 方面 对 HBase 的 优化 则 是 在 性 能 方面 ,其 中 包括 高 性 能 范围 检 
索 , 数 据 一 致 性 数据 的 低 元 余 , 二 级 索引 与 索引 Join 是 多 数 业 务 系 统 要 求 存 储 引擎 提供 的 
基本 特性 ,目前 很 多 厂商 都 在 这 方面 基于 开源 系统 做 了 相关 改进 。 

HBase 官方 网 址 为 http://hbase. apache. org/ ,目前 最 新 版 本 为 1.2。 


8.3.3 MongoDB 


MongoDB 是 一 个 面向 文档 的 数据 库 , 其 文档 模型 自由 灵活 。 在 MongoDB 中 ,一 个 数 
据 库 可 以 有 多 个 Collection , 每 个 Collection 是 Documents 的 集合 。 并 不 要 求 事先 定义 
Collection ,而 是 可 以 随时 创建 。 同 时 , Collection 中 可 以 包含 具有 不 同 Schema 的 文档 记录 。 
每 个 记录 由 若干 个 属性 组 成 ,属性 的 类 型 既 可 以 是 基本 的 数据 类 型 (如 数字 型 .字符 串 型 .日 
期 型 等 ), 也 可 以 是 数组 或 散 列 ,甚至 还 可 以 是 一 个 子 文档 (Embed Document) 。 根 据 这 些 
叙述 ,Collection 和 Document 的 关系 有 点 像 传统 数据 库 的 Table 和 Row 的 关系 ,但 是 也 不 
完全 相同 。 可 以 认为 MongoDB 是 一 个 介 于 关系 数据 库 和 非 关 系数 据 库 之 间 的 数据 库 


从 存储 的 角度 来 看 ,Lucene 也 能 实现 结构 化 和 非 结构 化 的 统一 存储 ,但 是 正如 前 面 选 


择 存储 系统 的 因素 中 所 述 ,开发 者 更 需要 关注 在 应 用 中 如 何 对 数据 进行 操作 。MongoDB 


的 查询 语言 非常 强大 ,几乎 可 以 实现 类 似 关 系数 据 库 单 表 查 询 的 绝 大 部 分 功能 ,是 非 关 系 型 
数据 中 最 像 关 系数 据 库 的 系统 。 

根据 这 个 文档 模型 的 规则 ,在 MongoDB 中 , 某 一 条 记录 中 的 文档 中 可 以 有 3 个 属性 ， 
而 其 下 一 条 记录 的 文档 可 以 有 8 个 属性 。 也 就 是 说 每 个 Document 的 属性 可 以 不 同 ,这 是 
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其 灵活 性 的 一 个 表现 。 因 此 ,利用 MongoDB 就 可 以 实现 互联 网 上 许多 数据 类 型 的 综合 存 
储 。 例 如 ,针对 网 络 评论 类 型 的 信息 ,可 以 将 评论 设计 为 一 个 Collection, 评 论 的 回复 则 作为 
comment 的 属性 。 以 下 是 这 样 的 一 个 简单 示例 。 





{ title : "Zeng’s First Post", author: {name : "Zeng", id :1}, 
comments : [{ by: "Zhang", text: "Yes, first" }, 
{by : "Li", text : "Good post!" }] 
}) 


虽然 开发 者 也 经 常用 关系 型 数据 库 来 保存 上 述 的 网 络 评论 信息 ,但 通常 需要 把 一 篇 评 
论 (包含 评论 内 容 \ 标 题 , 作 者 、 回 复 等 ) 分 散在 多 张 数据 表 中 ,这 种 方式 的 最 大 问题 在 于 进行 
数据 查询 分 析 时 需要 使 用 Join 操作 才能 从 多 张 表 中 获得 一 个 帖子 信息 ,对 应 用 系统 的 性 能 
有 和 较 大 影响 。 而 从 上 面 的 示例 来 看 ,在 MongoDB 中 ,可 以 用 一 个 文档 来 表示 一 篇 评论 , 包 
含 该 评论 的 所 有 信息 。 这 样 的 数据 存储 方式 就 更 易于 管理 高效。 

由 于 MongoDB 的 文档 结构 为 BJSON(Binary JSON) 格 式 ,而 BJSON 格式 本 身 就 支持 
保存 二 进 制 格式 的 数据 ,因此 可 以 把 文件 的 二 进 制 格式 的 数据 直接 保存 到 MongoDB 的 文 
档 结 构 中 。 需 要 的 时 候 再 以 二 进 制 格式 取出 ,这 样 文档 就 能 实现 无 损 保 存 , 对 于 一 些 需要 格 
式 的 文档 来 说 ,这 是 很 方便 的 选择 。 以 下 函数 过 程 演示 了 这 种 写 和 方法 。 

private void SaveDocToMongo( string filename){ 

byte[ ] byteDoc = File. ReadAllBytes (filename); 
BsonDocument doc = new BsonDocument() 
doc["id"] = "1"; 

doc[ "content"] = byteDoc; 

MongoCollection col = db. GetCollection("doc"); 
col. Save( doc); 

} 


从 系统 部 署 的 角度 来 看 , MongoDB 内 置 的 水 平 扩展 机 制 提供 了 从 百 万 到 十 亿 级 别 的 
数据 量 处 理 能 力 ,完全 可 以 满足 Web 2.0 和 移动 互联 网 的 数据 存储 需求 ,对 于 大 数据 量 ,高 
并 发 、 弱 事务 的 互联 网 应 用 ,MongoDB 是 很 适合 的 。 

随 着 移动 终端 的 普及 .很 多 基于 移动 端的 应 用 ,都 会 收集 其 地 理 位 置 性 数据 ,从 而 进行 
一 些 推荐 服务 等 。 一 个 常用 的 应 用 场景 是 某 位 旅客 走 进 一 个 商场 , 收 到 该 商店 的 优惠 券 , 促 
销 信息 ,同时 还 收 到 周围 相关 饮食 .娱乐 等 位 置信 息 和 服务 信息 的 推送 ,可 以 根据 地 理 位 置 
查找 相关 的 好 友 。 这 种 被 称 为 基于 位 置 性 服务 (Location Based Service,LBS) ,通过 移动 运 
营 商 的 无 线 电 通信 网 络 或 外 部 定位 方式 ,获取 移动 终端 用 户 的 位 置信 息 , 在 GIS 平台 的 支 
持 下 ,为 用 户 提供 相应 的 服务 。 

基于 LBS 的 服务 数据 包括 用 户 基本 的 信息 时间、 地理 位 置信 息 ( 含 经 度 、 维 度 、 
GeoHash 值 ) 等 。 基 于 这 些 信息 ,计算 查询 两 个 位 置 之 间 距离 及 进行 空间 地 理 位 置 网 格 的 
划分 等 ,从 而 为 用 户 推送 目标 信息 和 状态 等 。 计 算 中 的 主要 问题 一 个 是 对 地 理 位 置 的 坐标 
精度 要 求 较 高 .其 体现 在 当 用 户 在 小 范围 内 移动 时 .其 经 纬度 也 会 小 幅度 变化 ; 另 一 个 是 对 
区 块 化 的 计算 要 求 比较 频繁 , 它 带 来 的 问题 是 计算 复杂 度 较 高 ,同时 频率 烦琐 ,相应 地 对 数 
据 库 的 性 能 有 一 定 的 影响 。 
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这 种 类 型 数据 的 存储 可 以 使 用 NoSQL, 如 MongoDB、CouchDB、Redis, 或 者 是 基于 
Graphic 的 NoSQL。 使 用 MongoDB 做 LBS 的 存储 .可 以 很 好 地 支持 地 理 位 置 计算 . 它 提 
供 了 区 域内 搜索 、 附 近 查 询 ,可 以 通过 $ geoWithin、$ geoNear 命令 进行 矩形 、 圆 形 、 多 边 形 
区 域 查询 ,在 计算 上 比 关系 型 数据 库 较 为 方便 ; 同时 , 它 还 拥有 诸如 面向 集合 存储 、 模 式 自 
由 、 高 性 能 .支持 复杂 查询 .支持 完全 索引 等 特性 。 

为 了 提高 计算 性 能 ,需要 进行 空间 数据 索引 的 优化 ,最 常用 的 技术 是 基于 GeoHash。 
GeoHash 索引 是 将 二 维 的 精度 转换 为 字符 串 , 每 个 字符 串 代表 一 块 区 域 ,此 区 域内 的 点 所 
代表 的 具体 位 置 都 共享 此 字符 串 。 如 果 字 符 串 长 度 越 长 , 则 其 代表 的 位 置 精度 就 越 高 ,而 字 
符 串 前 面 的 位 数 相近 的 越 多 , 则 表示 其 位 置 距离 越 相 近 。 因 此 ,用 GeoHash 可 以 对 位 置 做 
精度 上 的 判断 和 距离 比较 。MongoDB 也 提供 了 一 些 基于 Geo 的 索引 优化 ,目前 有 平面 坐 
标 索引 和 几何 球体 索引 两 种 。 平 面 坐标 索引 主要 用 于 平面 坐标 的 计算 ,而 几何 球体 索引 则 
用 于 球面 几何 计算 , 它 还 支持 数据 存储 为 GeoJSON 和 传统 坐标 。 


8.3.4 Neo4j 


连接 型 数据 的 典型 代表 是 社会 关系 型 数据 。 在 社会 网 络 中 ,个 体 之 间 存 在 多 种 网 络 社 
交 关 系 , 这 种 社会 关系 型 数据 有 着 不 同 的 类 型 ,如 家 人 、 同 学 .朋友 、 同 事 等 ,需要 计算 其 个 体 
之 间 的 关系 类 型 ,连接 型 数据 反映 的 就 是 这 种 类 型 的 数据 。 

连接 型 数据 的 特点 是 数据 量 巨大 数据 结构 多 样 ,数据 对 象 关系 复杂 , 且 是 动态 变化 的 。 
关系 型 数据 库 由 于 采用 的 是 静态 的 Schema', 同 时 数据 类 型 对 半 结 构 化 、 结 构 化 数据 支持 的 
不 是 很 好 。 在 遍历 复杂 关系 信息 能 力 上 比较 薄弱 ,这 些 导致 其 不 适合 做 连接 型 数据 的 存储 
和 计算 。 例 如 , 当 要 计算 一 部 电影 的 所 有 投资 人 ,在 关系 数据 模型 中 通常 是 用 "电影 一 关联 
表 一 人 "模型 来 进行 计算 的 ,但 是 如 果 这 一 关系 是 动态 变化 的 ,电影 里 涵盖 了 部 分 电视 剧 , 投 
资 人 中 又 涵盖 了 影视 公司 ,影视 公司 中 又 有 子 公 司 、 控 股 公司 等 ,这 样 导致 在 计算 的 时 候 需 
要 引入 更 多 的 建 模 , 无 法 适应 新 的 变化 ,同时 计算 性 能 由 于 引入 更 多 的 实体 也 会 越 来 越 慢 ， 
这 时 需要 引入 图 形 数 据 库 进行 计算 来 解决 这 一 问题 。 

Neo4j 是 Neo Technology 所 提供 的 开源 图 形 数据 库 , 是 一 个 高 性 能 的 NoSQL 图 形 数 
据 库 , 常 用 于 社会 关系 、 公 共 交 通 网 络 、 地 图 查询 等 场景 应 用 和 分 析 。 它 的 主要 特点 是 支持 
事务 ,采用 了 多 种 算法 支持 路 径 搜索 ,移植 性 好 ,提供 了 REST 接口 ,可 以 独立 使 用 或 嵌入 
到 Java 应 用 程序 ,使 用 键 值 和 关系 作为 索引 .横向 扩展 能 力 好 ,具有 读 写 分 离 功能 。 它 将 数 
据 存储 在 网 络 上 ,通过 节点 之 间 的 关系 来 表达 数据 。 图 8-2 是 一 个 Neo4j 的 数据 结构 示意 
图 , Neo4j 中 每 个 节点 (Nodes、Relationships、Properties ) 都 是 独立 存储 的 , Nodes 和 
Relationships 组 成 有 向 图 ,通过 Properties 带 上 对 应 的 数据 ,从 而 组 成 对 应 的 图 形 数据 库 。 

在 Neo4j 中 ,数据 库 主 要 由 节点 集 和 连接 点 
的 关系 组 成 ,在 节点 集 表 示 实 体 时 .其 和 关系 数据 
库 类 似 , 如 上 述 中 Nodes 在 表示 电影 和 投资 人 属 
性 的 时 候 , 其 意义 一 样 。 而 在 表示 实体 众多 关系 i 


的 时 候 , 却 更 加 简洁 ,如 在 表示 电影 和 投资 人 的 关 
表示 电影 和 参加 拍摄 电影 演员 的 关系 ,在 关系 数 图 8-2 ”Neo4j 的 数据 结构 示意 图 
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系 的 时 候 只 需要 设计 两 个 实体 就 可 以 了 .如果 要 
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据 库 中 可 能 要 增加 实体 进行 关联 处 理 , 而 在 图 形 数据 库 中 ,还 是 可 以 用 同样 的 实体 Nodes 
表示 实体 ,只 需要 增加 其 间 的 关系 即 可 。 

在 Neodj 中 ,索引 可 以 分 为 两 类 ,一 类 是 基于 Nodes 的 索引 , 另 一 类 是 基于 
Relationships 的 索引 。 


8.3.5 云 数据 库 


云 数据 库 是 指 部 署 在 一 个 虚拟 计算 环境 中 的 数据 库 , 可 以 是 私有 云 或 公有 云 环境 。 将 
数据 库 优化 部 署 到 云 环 境 , 允许 用 户 按照 存储 容量 和 带宽 的 需求 付费 ,具备 按 需 扩 展 的 能 
力 , 具 有 很 好 的 高 可 用 性 。 各 种 类 型 的 数据 库 都 可 以 部 署 到 云 环境 中 ,但 由 于 是 一 种 按 需 的 
实施 ,一 般 称 为 数据 存储 服务 。 阿 里 云 的 云 数据 库 包 括 NoSQL 数据 库 和 关系 型 数据 库 ,前 
者 包括 MongoDB 版 、Redis 版 、Memcache 版 ,后 者 支持 4 类 数据 引擎 (如 MySQL、 
SQLServer、PostgreSQL 和 PPAS)。 这 里 分 别 介绍 MongoDB 版 和 MySQL 引擎 。 

1. 阿里 云 的 MongoDB 

阿里 云 的 MongoDB 是 基于 阿里 分 布 式 系统 上 架设 的 NoSQL 型 数据 库 , 它 完全 兼容 于 
开源 的 MongoDB 协议 .支持 绝 大 部 分 MongoDB 命令 操作 (目前 暂时 不 支持 分 片 操作 ) , 同 
时 兼容 任何 开源 MongoDB 的 客户 端 。 它 还 提供 了 弹性 可 伸缩 .稳定 可 靠 的 数据 库 服 务 , 实 
现 了 自动 化 安装 和 运 维 .可 视 化 监控 ,数据 管理 ,同时 还 提供 了 极为 方便 的 数据 库 迁 移 、 备 份 功 
能 。 阿 里 云 的 MongoDB 可 以 直接 使 用 其 云 数 据 库 , 也 可 以 基于 ECS 进行 自 建 。 图 8-3 所 


示 的 是 阿里 云 的 MongoDB 数据 库 架 构 。 
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图 8-3 阿里 云 的 MongoDB 数据 库 架 构 
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阿里 云 的 MongoDB, 在 应 用 上 主要 体现 为 高 可 用 性 、 高 可 靠 性 、 高 可 扩展 性 和 低 成 本 ， 
它 在 移动 应 用 、 物 联网 \ 日 志 分 析 、 数 据 处 理 、 分 析 平 台 上 ,结合 阿里 的 E-mapreduce 都 有 广 
泛 的 应 用 。 
在 二 次 开发 上 ,阿里 云 的 MongoDB 提供 了 多 种 应 用 系统 接口 ,提供 的 MongoDB 
Driver 支持 Java、C++ .PHP、Python、nod. js 语言 ,在 实际 项 目 中 可 以 根据 需要 进行 灵活 扩 
展 和 接 入 。 以 下 代码 演示 了 基于 Java 客户 端 对 阿里 云 MongoDB 连接 和 插入 操作 。 























public static MongoClient ConnectMongoDBClientWithURI() { 

// 通 过 URI 初始 化 ,其 中 username、password、DEFAULT_DB 分 别 为 字符 串 类 型 ， 

// 代 表 链 接 数据 库 的 用 户 名 密码 ,数据库 

MongoClientURI connectionStr = new MongoClientURI("mongodb://" + username + ":" + password 
+ "@" + 


//servl、serv2 是 指 服务 器 对 象 ,需要 指定 域名 、 端 口 ， 
// 定 义 类 似 new ServerAddress("remote. mongodb. tab. com", 27017); 


servl + "," + serv2+ "/" + DEFAULT DB + 


//ReplSetName 代表 副本 集 ,指定 为 string 类 型 
"?replicaSet =" + ReplSetName); 
return new MongoClient (connectionString); 
} 


利用 客户 端 对 MongoDB 数据 库 的 插入 一 条 文本 记录 : 


public static void insert_data(){ 
MongoClient client = ConnectMongoDBCl ientWithURI( ); // 创 建 客户 端 连接 
try { 
// 取 得 Collecton 句柄 
MongoDatabase database = client. getDatabase(DB);  //DB 为 数据 库 , string 类 型 
MongoCollection < Document > collection = database. getCollection( COLL); 


//COLL 为 表 名 , string 类 型 
Document doc = new Document(); // 创 建 一 个 文档 记录 
String docname = "JAVA:" + UUID.randomUUID(); // 设 定 wwid 
doc. append( "DEMO", docname ); // 增 加 key 
doc. append( "MESG", "This a message for Alimogodb"); // 增 加 value 
// 择 入 到 mogodb 中 
collection. insertOne( doc); 
} finally { 
// 关 闭 Client, 释放 资源 


client. close(); 


} 
return; 


其 他 的 删除 ,更改 ,查询 等 操作 也 基本 类 似 。 
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2. 阿里 云 的 MySQL 

阿里 的 云 数 据 库 RDS(ApsaraDB for RDS) 是 一 种 稳定 可 靠 、 可 弹性 伸缩 的 在 线 数据 库 
服务 ,基于 飞天 分 布 式 系统 和 高 性 能 存储 , 它 支 持 多 种 关系 数据 库 引 擎 。 云 数据 库 MySQL 
版 就 是 其 中 的 一 种 。 

阿里 云 MySQL 数据 库 在 语法 上 完全 兼容 开源 的 MySQL 语法 和 服务 , 除 此 之 外 , 它 还 
有 以 下 优势 。 

(1) 高 性 能 : 可 以 经 受 更 大 的 并 发 访问 ,实行 读 写 分 离 ,资源 弹性 分 布 。 

(2) 高 可 用 服务 : 可 以 自动 检测 .修复 主 从 节点 的 链 路 故障 ,并 提供 异步 复制 ` 强 同步 
复制 , 半 同 步 复 制 多 种 数据 复制 方法 ,同时 还 提供 多 可 用 区 服务 。 

(3) 备份 服务 : RDS 除了 提供 热 备 架构 外 ,还 提供 将 数据 备份 到 OSS 上 ,然后 再 将 数 
据 从 OSS 再 备份 到 OAS 上 ,从 而 可 以 更 长 久 地 离线 存储 。 

(4) 调度 服务 : 提供 RDS 底层 资源 的 整合 和 分 配 ,可 以 定期 整合 碎片 化 的 资源 ,并 可 以 
对 RDS 进行 自动 升级 和 维护 。 

(5) 更 为 灵活 的 数据 迁移 服务 : 可 以 将 本 地 数据 迁移 至 RDS, 也 可 以 在 RDS 之 间 互 相 
迁移 数据 , 它 提供 结构 迁移 、 增 量 、 全 量 数据 迁移 。 

(6) 安全 性 更 高 : 提供 多 种 安全 策略 , 防 DDoS 攻击 ,对 外 网 流量 还 进行 流量 清洗 和 黑 
洞 处 理 。 提 供 全 数据 链 路 服务 ,包括 DNS、SLB、Proxy 等 ,可 以 屏蔽 IP 变化 带 来 的 影响 。 

阿里 云 MySQL 数据 库 提供 了 SDK 供 开 发 者 使 用 。 它 的 API 包括 实例 、 数 据 库 账 号 、 
监控 ,日 志 等 。 阿 里 的 API 调用 使 用 http 或 https 作为 通信 。 

下 面 用 一 个 示例 来 说 明 最 常用 的 用 法 (以 下 为 阿里 官方 文档 示例 ): 





public void sample() { 
// 这 里 新 创建 一 个 区 域 实例 请 求 
DescribeInstancesRequest describe = new DescribeInstancesRequest( ); 


// 这 里 是 实例 化 域名 、AccessSecret ,AccessKey 等 相关 登录 信息 
IClientProfile profile = DefaultProfile. getProfile("cn— hangzhou", "< your accessKey >", 
"< your accessSecret >"); 

// 实 例 化 客户 端 

IAcsClient client = new DefaultAcsClient(profile); 

try { 

// 从 服务 端 返回 相关 的 请 求 
DescribeInstancesResponse response = client. getAcsResponse( describe); 

}catch (ServerException e) { 

e. printStackTrace( ); 
} 
catch (ClientException e) { 
e. printStackTrace( ); 
} 
} 


调用 API 后 ,返回 的 JSON 结果 如 下 : 
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"RequestId" : "4C467B38-3910-447D-87049166F216", 
/* 返 回 结果 数据 * / 
1 


也 可 以 是 XML 的 格式 ,如 果 返 回 的 结果 错误 ,可 以 根据 阿里 提供 的 错误 代码 来 定位 。 


8.3.6 其 他 


开源 系统 里 ,Lucene 是 一 个 常用 于 文本 存储 与 管理 的 软件 系统 。 它 是 Apache 的 一 个 
子 项 目 ,是 一 个 高 性 能 可 伸缩 的 信息 搜索 库 , 里 面包 含 了 纯 Java 语言 全 文 检 索 工 具 包 , 它 作 
为 一 个 全 文 检索 引擎 。 由 于 它 对 文本 型 数据 的 处 理 有 鲜明 特色 ,在 许多 设计 中 可 以 借鉴 , 因 
此 ,这 里 单独 介绍 Lucene。 

目前 社区 里 所 用 的 版 本 最 新 的 为 6. 1. 0; 其 官方 网 址 为 http://lucene. apache. org/ 。 

Lucene 具有 以 下 特点 。 

(1) 开源 .多 语言 ,适合 各 种 平台 ,索引 文件 独立 于 各 种 应 用 平台 之 上 。 

(2) 提供 了 独立 于 语言 和 文本 格式 的 分 析 接 口 , 用 户 只 要 实现 其 文本 分 析 接 口 , 即 可 扩 
展 新 的 语言 和 文件 格式 。 

(3) 实现 了 文本 文件 的 分 块 索引 ,查询 索引 等 强大 功能 。 

(4) 扩展 性 好 。 

(5) 学 习 难 度 较 低 。 

Lucene 全 文 检索 的 过 程 首 先 从 结构 化 和 非 结 构 化 数据 中 提取 信息 创建 索引 ,而 后 是 搜 
索索 引 返 回 需要 的 信息 。Lucene 的 应 用 目前 主要 在 自然 语言 .文本 检索 方面 ,其 中 包括 对 
文本 语句 的 分 词 、 倒 排 索引 、 检 索 .排序 。 

Lucene 以 存储 文本 为 擅长 ,当然 也 能 同时 存储 其 他 结构 化 信息 ,因此 利用 Lucene 除了 
可 以 实现 网 络 新 闻 报 道 正 文 的 存储 外 ,标题 .报道 时 间 、 报 道人 .新 闻 长 度 等 结构 化 信息 也 可 
以 同时 存储 。 以 下 用 一 个 示例 来 说 明 这 个 过 程 。 





// 创 建 一 个 lucene. document. Document 对 象 
Document doc = new Document( ); 


// 为 新 闻 报道 的 正文 内 容 创 建 一 个 Filed, 字段 的 名 称 为 content, 正文 内 容 来 自 filefields. 
TxtContent, 

// 同 时 在 创建 字段 时 指定 TOKENIZED, 可 以 实现 对 正文 内 容 的 自动 分 词 ,构建 倒 排 索引 结构 的 基础 
field = new Field ( "content"，filefields. TxtContent, Field. Store. COMPRESS, Field. Index. 
TOKENIZED, Field. TermVector. WITH_POSITIONS_OFFSETS) ; 

doc.add(field) 


// 为 新 闻 报 道 的 报道 人 创建 一 个 Filed, 指定 为 UN_TOKENIZED, 即 不 需要 对 该 字段 的 内 容 进 行 词汇 


field = new Field("reporer", filefields. Reporer, Field. Store. YES, Field. Index. UN_TOKENIZED) ; 
doc.add(field); 


// 为 新 闻 报道 的 长 度 创建 一 个 Filed 
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field = new Field( "filelength"，filefields. fileLength, Field. Store. YES, Field. Index. UN 
TOKENIZED); 
doc.add(field); 





// 将 文档 保存 到 文件 ,并 建立 索引 结构 
indWriter. addDocument (doc); //indWriter 是 事先 建立 的 IndexWriter 类 型 对 象 


另 一 种 值得 一 提 的 开源 系统 是 HyperGraphDB, 它 是 一 个 可 用 于 一 般 应 用 环境 下 的 强 
大 的 存储 系统 ,基于 Directed Hypergraphs 理论 构建 ,提供 持久 化 的 内 存 模型 设计 、AI 和 语 
义 网 络 ,可 作为 Java 项 目的 能 人 式 面 向 对 象 数据 库 或 图 形 数据 库 ,或 者 是 NoSQL 数据 库 。 

HyperGraphDB 作为 一 个 戏 入 式 的 NoSQL , 相 比 一 般 的 RDBMS 数据 库 可 以 提供 更 加 
快速 的 查询 功能 , 另 一 方面 在 传统 的 桌面 开发 应 用 中 ,对 数据 库 的 配置 往往 过 于 复杂 ,需要 
存储 很 多 用 户 信息 和 一 些 持久 层 的 信息 ,而 HyperGraphDB 的 配置 更 加 简洁 ; 除 此 之 外 , 它 
还 可 以 应 用 于 社交 网 络 `Web 语义 .生物 信息 研究 等 领域 。 它 的 主要 特点 有 支持 广义 图 存 
储 支持 Java 对 象 存 储 、 提 供 现成 安全 处 理 、 提 供 P2P 框架 实现 数据 分 发 ,支持 图 形 和 查询 系 
统 的 遍历 算法 。HyperGraphDB 提供 了 查询 和 图 形 计算 可 以 用 于 简单 的 统计 分 析 , 同 时 提 
供 了 P2P 框架 ,在 架构 上 使 其 具有 良好 的 扩展 性 。 

HyperGraphDB 的 开源 信息 可 以 在 https://github. com/hypergraphdb/hypergraphdb/ 
wiki/GettingStarted 找到 , 它 提供 了 对 Java 很 好 的 支持 。 

HyperGraphDB 采用 的 是 关联 图 模型 ,其 系统 架构 如 图 8-4 所 示 。 最 上 层 是 应 用 层 , 它 
提供 了 语义 、 分 词 等 多 种 应 用 接口 ,而 后 是 查询 和 图 形 计 算 及 P2P 分 布 式 框架 ,接着 是 模型 
层 ,包括 数据 类 型 .索引 ,缓存 .事件 等 ,最 底层 则 是 存储 层 ,采用 的 是 (K,V) 模 式 , 存 储 在 磁 
盘 上 。 
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图 8-4 HyperGraphDB 的 系统 架构 


HyperGraphDB 数据 库 支持 多 种 算法 和 模型 , 它 目 前 支持 的 有 JSON、Wordnet、 
topicmaps、OWL2. 0、 RDF via Sail, Protege Plugin, TuProlog, XmlSchema, Feedforward 
Neural Nets、Distributed Dataflow 等 组 件 和 框架 。 其 中 ,JSON 图 存储 、Wordnet 词典 库 、 
OWL2.0 半 结 构 化 的 数据 、Feedforward Neural Nets 神经 网 络 在 网 页 文本 分 析 上 都 有 广泛 
的 应 用 。 

下 面 是 一 个 HyperGraphDB 对 属性 查询 的 示例 。 
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Public book (String title, String author){ 
this. Author = author; 
this .title= title; 

} 


同时 定义 set、get 等 方法 . 当 需 要 查询 对 象 auhor 和 title 的 关系 时 ,只 要 针对 其 属性 条 
件 查 询 就 可 以 了 ,格式 如 下 : 


Public void get_relationship(){ 

String database_Location = "/path/to/hypergraphdb";  // 定 义 database 的 路 径 
HyperGraph graph= null; // 初 始 化 数据 库 
graph = new HyperGraph( database_Location); // 初 始 化 graph 
Book mybook = new Book("Machine Learning ", " Tom Mitchell"); 
HGHandle bookHandle = graph. add( mybook); 
List < Book > books = hg. getAll(graph, hg.and(hg.type(Book. class), hg.eq("author", "Tom 

Mitchel1"))); // 得 到 相关 的 book 的 对 象 列表 
} 


在 社交 网 络 上 ,常常 需要 计算 和 查询 对 象 之 间 的 关系 ,对 象 之 间 可 能 存在 多 种 关系 ,下 
面 的 示例 演示 了 这 种 情况 的 使 用 。 


Public void query_link(){ 
String someObject_1 = "teahcer"; 
String someObject 2 = "student"; 
HGHandle handlel = graph. add( someObject 1); 


HGHandle handle2 = graph. add( someObject_2); // 初 始 化 对 象 
HGHandle dupsList = graph. add(new HGPlainLink(handlel, handle2)); 
// 建 立 对 象 间 的 链接 
List < HGHandle > duplicateLink = hg. findAll (graph, hg. link(handlel, handle2)); 
// 对 关系 进行 查询 
System. out. println ( " querying for link returned that duplicate Link? :" + dupsList. 
contains(duplicateLink) ); 
// 得 到 对 象 间 的 多 重 关系 


} 


HyperGraphDB 还 支持 事务 .索引 、 求 两 个 对 象 间 最 小 路 径 算法 .遍历 算法 , 它 还 支持 
Wordnet ,可 以 根据 一 个 给 定 的 特殊 词 查询 ,支持 词语 之 间 的 关系 查询 、 结 构 语 法 分 析 , 这 些 
在 Web 文本 中 分 析 都 有 广泛 应 用 。 


8.4 大 数据 可 视 化 


利用 大 数据 可 视 化 方法 可 以 对 大 规模 复杂 数据 集 及 其 挖掘 结果 以 视觉 形式 进行 呈现 ， 
同时 提供 交互 式 手段 为 用 户 从 不 同 视点 对 数据 进行 变换 、 缩 放 、 旋 转 等 操控 ,以 获得 大 规模 
复杂 数据 集 的 全 方位 映像 .为 用 户 在 视觉 层面 理解 数据 中 的 现象 和 规律 提供 了 有 效 的 途径 。 
大 数据 的 多 样 性 、 复 杂 性 和 多 变性 .决定 了 大 数据 可 视 化 在 分 析 和 应 用 中 的 必要 性 。 各 
种 大 数据 应 用 对 数据 可 视 化 的 需求 越 来 越 高 .数据 可 视 化 的 地 位 也 越 来 越 重 要 .人们 迫切 需 
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要 以 良好 用 户 体验 的 方式 来 发 现 数据 的 内 在 价值 。 当 环境 中 存在 符合 用 户 心理 的 直观 化 、 
可 视 化 结构 时 ,用 户 可 以 直接 从 里 面 提取 出 有 用 的 信息 ,而 不 需要 经 过 逻辑 推理 等 过 程 , 达 
到 快速 吸取 信息 的 目的 ,从 而 能 满足 业务 人 员 的 分 析 需 要 和 高 层 领导 的 决策 需要 。 此 外 ,从 
大 数据 的 分 析 和 挖掘 过 程 来 看 ,有 效 地 融合 人 机 各 自 的 优势 ,在 可 视 化 交互 过 程 中 进行 模型 
修正 ,对 于 获得 更 加 可 信 的 结果 是 非常 必要 的 。 


8.4.1 大 数据 可 视 化 的 挑战 


传统 的 数据 可 视 化 仅 将 数据 进行 组 合 ,以 比较 简单 方式 展现 给 用 户 , 这 些 做 法 常见 于 一 
些 数据 仓库 的 报表 型 应 用 中 。 而 大 数据 可 视 化 面 对 着 一 些 不 同 于 传统 数据 的 特点 , 即 数据 
量 大 、 实 时 性 高 .数据 类 型 繁多 等 。 这 些 数 据 特点 ,给 大 数据 可 视 化 提出 了 新 的 挑战 。 

1. 多 源 、. 异 构 、 非 完整 、 非 一 致 . 非 准确 数据 的 集成 与 接口 

大 数据 中 数据 源 多 样 化 ,涵盖 多 种 数据 源 ,对 各 种 数据 源 的 支持 和 集成 将 直接 影响 数据 
的 完整 性 和 准确 性 。 而 可 视 化 的 前 提 是 建立 集成 的 统一 的 数据 接口 ,使 开发 者 和 使 用 者 不 
必 关 注 其 背后 的 复杂 机 制 。 多 数据 源 的 集成 和 统一 接口 的 支持 ,是 大 数据 可 视 化 面临 的 挑 
战 性 问题 。 

2. 符合 可 视 化 心理 映像 的 可 视 化 设计 方法 

可 视 化 的 目标 应 该 是 呈现 结果 容易 被 用 户 理解 ,感知 和 体验 ,同时 还 应 该 具有 丰富 的 表 
达能 力 。 如 何 将 高 维度 数据 可 视 化 ,一 方面 需要 有 一 定 的 心理 映像 机 制 来 指导 ,但 是 目前 对 
视 化 表征 设计 的 合理 性 ,自然 性 直观 性 及 有 效 性 的 评估 ,仍然 缺乏 科学 机 制 ; 另 一 方面 ,用 
户 体验 尚 难于 量化 和 捕 提 ,而且 用 户 体验 的 合理 性 没有 最 好 ,只 有 更 好 。 

3. 人 机 互补 的 最 优化 协作 

人 具有 机 器 所 没有 的 特定 的 认 知 能 力 和 直觉 感 官能 力 ,可 以 快捷 地 从 信息 中 抽取 出 有 
用 的 信息 和 知识 ,而 计算 机 具有 强大 的 精确 计算 能 力 , 可 以 进行 大 规模 挖掘 计算 。 在 大 数据 
可 视 化 中 ,如 何 设 计 两 者 最 优 的 交互 协作 方式 ,以 便 有 效 地 进行 多 层次 ` 多 粒度 的 挖掘 和 分 
析 ,就 具有 一 定 的 挑战 性 。 

4. 可 视 化 算法 与 架构 的 可 扩展 性 

一 方面 ,数据 量 的 不 断 增加 和 数据 流动 性 的 加 快 使 得 可 视 化 方法 所 需要 的 计算 量 急 剧 
增加 ,可视化 架构 需要 适应 不 同 规模 的 运算 ,以 实现 高 速 动态 可 视 化 处 理 。 例 如 当 数据 量 不 
断 的 快速 增长 时 ,时 空 数据 的 维度 会 越 来 越 多 ,其 可 视 化 会 面临 大 量 的 图 层 交 又 和 覆盖 的 
问题 。 

男 一 方面 , 随 着 新 的 互联 网 应 用 模式 的 出 现 , 必 然 导 臻 新 的 数据 形式 的 出 现 ,这 也 就 要 
求 大 数据 可 视 分 析 方 法 在 应 对 复杂 未 知 类 型 的 数据 方面 应 具有 良好 的 可 扩展 性 ,包括 感知 
扩展 性 和 交互 扩展 性 。 

5. 其 他 问题 

大 数据 可 视 化 还 面临 其 他 的 一 些 问 题 ,包括 视觉 噪声 、 信 息 丢 失 、 大 型 图 像 感 知 、 高 速 图 
像 变换 、 高 性 能 要 求 等 。 其 中 .视觉 噪声 是 指 大 多 数 对 象 有 很 强 的 相关 性 ,需要 将 它们 去 噪 
声 处 理 , 作 为 独立 的 对 象 显示 。 
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可 视 化 中 数据 延迟 、 实 时 性 不 够 是 另 一 个 问题 ,信息 转化 为 可 视 化 数据 的 过 程 会 出 现 数 
据 迟 灌 的 情况 ,导致 显示 界面 的 数据 与 真实 数值 出 现 偏差 , 即 在 较 长 时 间 内 ,计数 是 准确 的 ， 
但 在 较 短 时 间 内 ,会 产生 偏差 。 


8.4.2 大 数据 可 视 化 方法 


大 数据 在 可 视 化 输出 展示 中 ,根据 不 同 的 应 用 场景 和 信息 处 理 过 程 ,可 以 分 为 多 维 数据 
可 视 化 ,文本 可 视 化 .网络 可 视 化 .时空 数 据 可 视 化 等 。 

1. 多 维 数据 可 视 化 

多 维 数据 可 视 化 是 指 对 3 个 维度 以 上 的 数据 进行 的 可 视 化 展示 。 最 常用 的 场景 是 数据 
仓库 分 析 , 数 据 仓 库 的 数据 有 多 个 属性 ,多 维 可 视 化 就 是 将 每 个 属性 作为 一 个 维度 ,数据 记 
录 在 维度 上 的 值 就 是 对 应 的 变量 值 。 因 此 .多维 可 视 化 可 以 认为 是 将 数据 记录 映射 为 多 维 
空间 中 的 点 或 称 为 多 维 矢量 。 由 于 人 的 习惯 ,这 些 矢量 通常 在 二 维 或 三 维 的 空间 中 再 现 。 

多 维 数据 可 视 化 相关 的 主要 过 程 如 下 。 

(1) 多 维 数据 的 降 维 。 数 据 降 维 的 目的 是 将 数据 从 多 维 数据 空间 映射 到 低 维 空间 。 在 
数据 分 析 领 域 有 一 些 专门 的 降 维 方法 ,如 特征 选择 、 特 征 提 取 等 ,与 数据 分 析 的 具体 任务 有 
关 。 其 他 的 做 法 就 是 由 用 户 选 择 感 兴趣 的 属性 子 集 。 

(2) 多 维 数据 探索 。 即 使 数据 变换 到 了 低 维 空间 ,三 维 以 上 仍然 不 适合 人 的 体验 习惯 。 
因此 ,需要 对 数据 进行 切片 、 切 块 .旋转 ; 用 户 对 多 维 数据 进行 搜索 ,得 到 相关 的 有 用 的 
信息 。 

(3) 多 维 数据 可 视 化 。 

多 维 数据 可 视 化 是 指 将 数据 以 图 形 图 像 的 形式 显示 出 来 。 

在 上 述 处 理 过 程 中 ,多 维 数据 可 视 化 常用 的 技术 有 以 下 几 种 。 

(1) 散 点 图 。 散 点 图 是 将 数据 集合 中 每 一 行 记 录 映 射 成 为 二 维 或 三 维 坐标 系 中 的 实 
体 。 例 如 ,如 果 要 描述 房价 和 面积 的 关系 ,就 可 以 用 横 纵 坐标 分 别 表示 房价 和 面积 。 

如 果 是 多 个 变量 之 间 的 散 点 图 , 则 可 利用 散 点 图 矩阵。 例如 ,除了 房价 和 面积 外 ,还 有 
房间 个 数 、 房 屋 所 处 的 地 段 ,新房 旧 房 等 变量 。 则 可 以 定义 上 个 变量 ,创建 一 个 & 行 上 列 的 
矩阵 ,每 行 或 每 列 变量 之 间 两 两 构成 了 一 个 二 维 空间 ,形成 一 个 “k(x) ,k(y)” 关 系 ,这 样 就 
可 以 通过 多 个 散 点 图 来 展示 数据 之 间 的 关系 。 

(2) 投影 法 。 投 影 法 是 可 以 同时 表现 多 维 数据 的 可 视 化 方法 。 它 的 基本 思想 是 把 多 维 
数据 通过 某 种 组 合 , 投 影 到 低 维 (1 一 3 维 ) 空 间 上 ,通过 极 小 化 某 个 投影 指标 ,寻找 出 能 反映 
原 多 维 数据 结构 或 特征 的 投影 。 

(3) 平行 坐标 法 。 平 行 坐标 是 应 用 和 研究 得 最 为 广泛 的 一 种 多 维度 可 视 化 技术 ,其 核 
心 是 用 二 维 的 形式 表示 N 维 空间 的 数据 。 它 的 基本 原理 是 将 一 维 数据 属性 空间 用 一 条 等 
距离 的 平行 轴 映 射 到 二 维 平面 上 ,每 条 轴线 对 应 一 个 属性 维 , 坐 标 轴 的 取 值 范围 从 对 应 属性 
的 最 小 值 到 最 大 值 均匀 分 布 ,这 样 每 一 个 数据 项 都 可 以 用 一 条 折线 段 表 示 在 一 条 平行 轴 上 。 

在 基于 平行 坐标 法 上 ,常用 的 实现 技术 如 下 。 

(1) 基于 刷 技术 。 刷 技术 是 一 种 突显 数据 子 集 的 可 视 化 技术 , 它 通过 突显 一 部 分 折线 
而 使 其 他 折线 不 明显 ,从 而 更 清晰 地 显示 局 部 变化 规律 。 

(2) 维 数控 制 。 通 过 减少 不 重要 的 维度 .忽略 部 分 不 重要 的 数据 ,减少 了 平行 坐标 的 复 
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杂 度 ,从 而 使 关注 部 分 更 加 明显 。 

(3) 交换 坐标 轴 。 通 过 交换 数据 的 坐标 轴 , 猜 测 和 探索 数据 属性 间 隐 含 的 关系 。 

(4) 维 缩放 。 通 过 将 局 部 数据 进行 缩放 ,将 其 与 全 局 数据 进行 比较 来 发 现 其 隐 含 的 关 
系 和 变化 趋势 。 

此 外 ,还 有 数据 抽象 .颜色 比例 等 技术 。 

平行 坐标 法 面临 的 问题 是 在 海量 数据 情况 下 ,大 规模 数据 项 造成 的 线条 密集 和 重 释 覆 
盖 问 题 。 针 对 这 一 问题 ,常用 的 方法 是 对 平行 坐标 轴 简化 ,形成 聚 族 可 视 化 效果 。 

2. 文本 可 视 化 

文本 可 视 化 方法 试图 将 文本 内 容 以 直观 方式 展现 出 来 ,而 不 是 局 限于 文字 上 的 描述 。 
然而 这 种 直观 表达 方法 要 尽量 保留 文本 中 的 重要 信息 和 关系 。 因 此 ,文本 可 视 化 过 程 一 般 
需要 结合 文本 分 析 的 技术 ,如 中 文 分 词 .关键 词 识 别 、 主 题 聚 类 等 ,可 以 看 出 来 ,可 视 化 的 过 
程 与 文本 分 析 过 程 实际 上 有 共同 的 步骤 ,可 以 实现 自然 的 融合 。 

一 些 主要 的 过 程 简 述 如 下 。 

(1) 中 文 分 词 。 对 中 文 文本 的 词汇 切 分 ,分 离 出 中 文 词汇 ,英文 单词 数字、 特殊 字符 等 
文本 表达 的 基本 要 素 。 这 也 是 许多 中 文 文本 数据 分 析 必 须 经 过 的 第 一 个 步骤 。 

(2) 文本 特征 。 文 本 特征 就 是 反映 文本 重要 性 的 一 种 词汇 信息 ,这 些 信 息 将 直接 影响 
文本 可 视 化 中 的 词汇 集 。 而 文本 的 重要 性 与 具体 的 文本 分 析 应 用 有 关 , 如 在 理解 文本 的 主 
要 内 容 时 ,高 频 词汇 的 重要 性 显然 就 会 很 高 。 而 在 文本 分 类 时 , 则 未 必 如 此 。 因 此 ,在 文本 
特征 选择 上 应 当 结合 具体 的 可 视 化 需求 。 

(3) 文本 表示 。 文 本 表示 与 多 维 数据 表示 一 样 , 在 确定 文本 特征 之 后 ,需要 决定 该 特征 
的 重要 性 大 小 , 即 所 谓 的 权重 函数 ,常用 的 有 TF 和 TF-IDF 等 。 这 样 处 理 后 ,文本 表示 可 
以 采用 多 种 不 同 的 方法 。 目 前 主要 有 两 种 方法 ,一 种 是 空间 向 量 模型 ; 另 一 种 是 概率 模型 。 

(4) 文本 可 视 化 。 由 于 文本 经 过 特征 选择 降 维 后 ,一般 的 维度 仍然 非常 高 ,并 不 适合 采 
用 前 述 的 多 维 可 视 化 技术 。 文 本 分 析 可 视 化 可 以 分 为 静态 可 视 化 和 动态 可 视 化 。 静 态 可 视 
化 主要 是 分 析 文 本 包含 的 主题 和 各 个 主题 之 间 的 关系 ,动态 可 视 化 是 指 主题 随 着 时 间 变 化 
的 关系 ,两 者 在 可 视 化 的 表现 形式 上 也 有 所 不 同 。 

最 常见 的 静态 可 视 化 是 标签 云 格式 的 形式 ,标签 云 是 将 HTML 潜入 到 网 页 中 , 它 以 字 
母 次 序 、 随 机 次 序 、 重 要 次 序 等 排列 ,除了 标签 云 ,还 可 以 以 树 的 形式 进行 可 视 化 展现 相似 
度 , 或 者 以 放射 状 层次 圆 环 的 形式 展示 文本 结构 ,或 者 将 一 维 投影 到 二 维 展现 ,用 层次 化 点 
排 布 的 投影 方法 进行 展现 ; 动态 可 视 化 与 时 间 有 关 , 则 需要 引入 时 间 轴 作为 一 个 维度 ,一 般 
可 以 用 气泡 .河流 等 模式 的 图 进行 展示 。 图 8-5 是 文本 可 视 化 的 示例 。 

3. 网 络 可 视 化 


互联 网 大 数据 中 有 一 大 类 型 的 数据 就 是 连接 型 数据 ,它们 直接 或 间接 地 存在 于 许多 互 
联网 应 用 中 。 这 种 数据 的 特点 使 它们 在 逻辑 上 构成 了 一 种 网 络 图 结构 ,图 中 的 节点 是 数据 
单元 ;节点 之 间 的 连接 是 数据 之 间 的 关系 。 微 博 中 的 人 际 网 络 数据 就 是 一 种 直接 型 的 连接 
数据 ,反映 了 人 与 人 之 间 的 关注 和 粉丝 关系 。 网 络 论坛 中 用 户 关系 则 是 一 种 间接 型 的 数据 ， 
用 户 作 为 网 络 中 的 节点 ,而 用 户 所 发 的 帖子 之 间 的 关系 则 反映 了 用 户 之 间 的 关系 ,需要 通过 
对 帖子 关系 进行 分 析 之 后 才能 得 到 。 
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图 8-5 文本 可 视 化 的 示例 


不 管 是 哪 种 类 型 数据 ,它们 在 逻辑 结构 上 都 可 以 看 作 是 一 种 网 络 结构 ,这 种 网 络 图 结构 
可 以 是 有 向 图 ,也 可 以 是 无 向 图 ,连接 可 以 是 有 权 的 ,也 可 以 是 无 权 的 。 网 络 数据 的 另 一 
特点 是 : 网 络 可 以 是 静态 的 ,也 可 以 是 动态 的 。 网 络 的 动态 性 体现 在 两 个 方面 ,一 是 网 络 规 
模 是 动态 变化 的 ; 二 是 网 络 的 节点 及 关系 是 动态 变化 的 。 

网 络 可 视 化 技术 分 为 九 类 ,包括 基于 力 导 引 布局 (Force-Directed Algorithm,FDA) 、. 基 
于 地 图 布局 (Geographical Map)、 基 于 圆 形 布局 (Circular)、 基 于 相对 空间 布局 (Spatial 
Calculated) .基于 聚 类 布局 (Cluster)、 基 于 时 间 布 局 (Time-oriented)、 基 于 层 布 局 
(Substrate-based) .基于 手工 布局 (Hand-made) 和 基于 随机 布局 (Random) 的 网 络 可 视 化 技 
术 。 其 中 , 力 导 引 布局 方法 能 够 产生 相当 优美 的 网 络 布局 ,并 充分 展现 网 络 的 整体 结构 及 其 
自 同 构 特征 ,所 以 网 络 节点 布局 技术 被 大 量 应 用 于 网 络 可 视 化 中 。 在 互联 网 大 数据 中 ,经 常 
会 遇 到 一 类 所 谓 的 网 络 权威 人 物 , 这 类 的 可 视 化 可 以 采用 基于 圆 形 布局 ,该 方法 在 圆心 放置 
一 个 或 一 组 节点 ,在 同心 圆周 上 按 顺序 布局 其 余 节点 , 它 能 利用 通过 圆心 的 十 字 线 产生 优良 
的 布局 。 大 部 分 网 络 可 视 化 应 用 都 结合 使 用 了 多 种 节点 布局 方法 。 例 如 , Vizster 和 
SocialAction 就 同时 使 用 了 力 导 引 布 局 及 聚 类 布局 方法 ,NVSS 在 每 一 层 内 又 使 用 时 间 布 
局 方法 等 。 

对 于 大 规模 网 络 ,其 节点 和 边 数 当 达到 数 以 百 万 计 的 时 候 , 以 上 简单 的 可 视 化 由 于 边 和 
点 会 聚集 重奏 ,将 不 再 适用 ,最 常见 的 处 理 方法 有 两 种 : 一 种 是 对 边 进行 聚集 处 理 , 其 常用 
的 有 基于 边 捆绑 的 图 可 视 化 技术 和 基于 骨架 的 图 可 视 化 技术 ;, 另 一 种 是 将 大 规模 图 转化 为 
层次 化 树 结构 ,然后 通过 多 尺度 交互 来 对 不 同 层次 图 进行 可 视 化 。 

对 于 动态 网 络 数据 的 可 视 化 ,其 关键 是 将 图 和 时 间 属 性 进行 融合 .引入 时 间 轴 ,将 图 形 
以 基于 时 间 轴 的 形式 进行 展现 。 

4.。 时 空 数据 可 视 化 

时 空 数据 是 指 带 有 地 理 位 置 和 时 间 标 签 的 数据 ,其 可 视 化 目的 是 反映 随时 间 流 逝 空 间 








234 互联 网 大 数据 处 理 技术 与 应 用 


位 置 的 变化 情况 ,多 见于 LBS 等 类 型 的 应 用 数据 , 它 一 般 由 时 间 、 空 间 和 属性 3 个 部 分 
组 成 。 

时 空 数据 的 表现 形式 可 以 用 (z,y'*'t,a) 这 种 坐标 来 表示 ,其 中 (z,y's) 表 示 的 是 各 种 
实体 的 空间 维 , 而 :表示 的 是 时 间 维 ,a 表示 的 是 属性 维 。 时 空 数据 可 视 化 中 ,时 间 是 一 个 
特殊 的 维度 ,在 对 时 序数 据 进行 可 视 化 时 ,必须 专门 考虑 时 间 的 作用 ,从 而 建立 与 时 间 的 直 
接 的 可 视 关联 。 时 空 数据 的 可 视 化 可 以 分 为 静态 可 视 化 和 动态 可 视 化。 静态 可 视 化 是 用 静 
态 的 画面 表达 信息 ,如 地 图 、 统 计 分 布 图 等 ; 动态 可 视 化 是 采用 各 种 动态 符号 .虚拟 现实 、 计 
算 机 动画 技术 等 来 表现 时 空地 理 信息 。 

时 空 数 据 的 可 视 化 技术 有 以 下 多 种 技术 。 

(1) 二 维 地 图 可 视 化 技术 。 二 维 地 图 可 视 化 技术 主要 是 通过 多 种 点 、 线 、 面 二 维 地 图 来 
表示 图 像 的 地 图 特征 ,这 是 一 种 最 常用 的 可 视 化 技术 ,如 气象 地 图 ,城市 公交 等 。 

(2) 三 维 仿 真 可 视 化 技术 。 三 维 仿真 可 视 化 技术 是 在 二 维 地 图 的 基础 上 ,添加 空间 信 
息 , 将 二 维 变 成 三 维 立体 的 地 图 ,具有 更 强 的 直观 性 。 三 维 仿 真 可 视 化 技术 目前 已 广泛 地 应 
用 在 工程 ,建筑 等 多 种 场景 中 。 

(3) 多 媒体 表现 技术 。 多 媒体 表现 技术 是 集 文本 ,图形 、 图 像 ,视频 ,声音 为 一 体 的 空间 
表示 方式 , 比 传统 的 二 维 地 图 表达 方式 更 具有 形象 性 。 

(4) 虚拟 现实 技术 。 虚 拟 现实 技术 是 一 种 可 以 创建 和 体验 虚拟 世界 的 计算 机 仿真 系统 
技术 ,用 于 生成 计算 机 模拟 环境 。 它 实现 了 多 源 信息 融合 的 交互 式 三 维 动态 视 景 和 实体 行 
为 的 系统 仿真 ,使 用 户 沉浸 到 该 环境 中 ,虚拟 现实 技术 为 时 空 数据 的 可 视 化 提供 了 一 种 新 
方法 。 

(5) 地 图 动画 技术 。 地 图 动画 技术 是 将 时 空 数据 存储 在 内 存 中 ,然后 通过 计算 机 动画 和 
高 级 显示 技术 ,将 其 按时 间 发 展 规律 ,以 动态 的 方式 从 不 同 角度 ,采用 不 同方 法 表达 地 理 数据 
随时 间 的 动态 变化 过 程 。 地 图 动画 技术 还 可 以 反映 时 间 以 外 因素 引起 的 动态 变化 过 程 。 


8.4.3 大 数据 可 视 化 工具 


目前 ,大 数据 可 视 化 工具 分 为 商业 和 开源 两 部 分 ,主要 有 Pentaho、 Tableau ManyEyes、 
Platfora .Datameer Analytics Solution and Cloudera JasperReports .Dygraphs、JasperReports 等 ， 
以 下 选择 主要 的 类 型 介绍 。 

1. 专业 型 

Pentaho 是 世界 上 最 流行 的 开源 商务 智能 软件 之 一 ,以 工作 流 为 核心 的 ,强调 面向 解决 
方案 而 非 工 具 组 件 的 ,基于 Java 平台 的 商业 智能 (Business Intelligence, BT) 套件 , 它 包 括 报 
表 、 分 析 、 图 表 、 数 据 集 成 .数据 挖掘 等 ,包含 了 商务 智能 的 方方面面 ,Pentaho 主要 用 于 数据 
的 整合 ETL 处 理 及 报表 展现 等 应 用 ,其 提供 Windows 平台 和 Linux 商业 版 ,其 下 载 地 址 为 
http://www. pentaho. com/。 

Tableau 是 商业 软件 , 它 将 数据 运算 与 可 视 化 完美 地 融合 在 一 起 ,控制 台 可 完全 自 定义 
配置 ,可 以 用 手动 拖 忠 实现 各 种 图 表 的 生成 ,. 它 有 Tableau Desktop 、Tableau Server、 
Tableau Reader 等 组 件 ,其 中 Tableau Desktop 可 以 实时 分 析 实 际 存在 的 任何 结构 化 数据 ， 
生成 可 视 化 图 表 、 坐 标 图 、 仪 表盘 与 报告 ; Tableau Server 是 服务 应 用 程序 ,可 以 迅速 简便 地 
共享 Tableau Desktop 中 最 新 的 交互 式 可 视 化 内 容 及 仪表 盘 和 报告 ; Tableau Reader 是 免 











第 8 章 。 大 数据 技术 平台 








费 的 计算 机 应 用 程序 ,可 以 轻松 查看 内 置 于 Tableau Desktop 的 分 析 视 角 与 可 视 化 内 容 , 并 
进行 与 工作 短 的 交互 。Tableau 的 官方 网 站 为 https://www. tableau. com/ 。 

此 外 ,在 业界 广泛 应 用 的 还 有 Gephi、Weka、R 等 。 其 中 R 提供 了 丰富 的 开源 分 析 包 ， 
可 以 做 一 些 简 单 的 图 形 化 展现 ; Gephi 是 进行 社交 图 谱 数据 可 视 化 分 析 的 工具 ,不 但 能 处 
理 大 规模 数据 集 并 生成 漂亮 的 可 视 化 图 形 , 还 能 对 数据 进行 清洗 和 分 类 ; Weka 是 一 个 免费 
的 数据 挖掘 工作 平台 ,集合 了 大 量 数据 挖掘 的 机 器 学 习 包 ,以 及 回归 、 聚 类 、 关 联 规则 , 它 还 
实现 了 在 新 的 交互 式 界面 上 的 可 视 化 功能 。 

2. 在 线 可 视 化 工具 

Google Chart API 是 一 款 在 线 可 视 化 工具 , 它 集 中 取消 了 静态 图 片 功 能 ,目前 只 提供 动 
态 图 表 工 具 ,能够 在 所 有 支持 SVG、Canvas 和 VML 的 浏览 器 中 使 用 ,Google Chart 的 图 表 
在 客户 端 生成 ,只 支持 Java api, 其 风格 多 样 ,使 用 简单 ,下 载 地 址 为 http://chart. apis. 
google. com/chart? cht= p3&.chd=t:60,40&.chs= 250x100&.chl= Hello| World, 打 开 这 
个 网 站 可 以 看 到 在 客户 端 生成 的 饼 图 。 

D3 是 最 流行 的 可 视 化 库 之 一 , 它 被 很 多 其 他 的 表格 插件 所 使 用 。 它 允许 绑 定 任意 数据 
到 DOM ,然后 将 数据 驱动 转换 应 用 到 Document 中 ,可 以 使 用 它 用 一 个 数组 创建 基本 的 
HTML 表格 ,或 是 利用 它 的 流体 过 度 和 交互 能 够 提供 大 量 线性 图 和 条 形 图 之 外 的 复杂 图 表 
样式 ,如 Voronoi 图 、 树 形 图 \、 圆 形 集群 和 单词 云 等 , 它 同 样 具备 跨 平台 的 特性 ,可 以 更 直接 
地 使 用 SVG, 其 地 址 为 http://mbostock. github. com/d3/。 

3. 人 机 交互 型 

Crossfilter 是 一 个 用 来 展示 大 数据 集 的 JavaScript 库 , 可 以 用 它 来 创建 图 表 、 交 互 式 
GUI 的 部 件 , 它 同时 还 支持 超 快 的 人 机 互动 ,其 至 在 上 百 万 或 更 多 数据 容量 下 都 很 快 ,还 可 
以 用 来 构建 数据 分 析 程 序 ; 显示 数据 的 时 候 , 不 仅 能 限制 一 个 范围 ,还 能 查看 其 他 链接 图 
表 。 下 载 地 址 为 http://square. github. io/crossfilter/ 。 

Tangle 是 一 个 开源 JavaScript 库 和 工具 ,不 仅仅 是 视觉 化 ,还 允许 设计 师 和 开发 者 创 
建 Reactive 程序 ,对 数据 的 关系 可 以 提供 深层 理解 。 例 如 ,一 个 网 页 端的 转换 计算 器 能 够 
转换 货币 或 测量 。 它 的 主要 特点 有 : 允许 使 用 者 来 改变 参数 ,可 以 自 定义 的 变量 、 格 式 和 分 
类 ,能 运用 Tangle 类 创建 图 表 和 其 他 可 视 化 效果 ,能 够 创建 动态 的 展示 ,同时 使 用 多 种 变量 
建立 控件 和 视图 。 其 下 载 地 址 为 http://worrydream. com/ Tangle/ 。 

4. 阿里 云 DataV 

DataV (https://data. aliyun. com/visual/datav) 基 于 阿里 云 平台 ,具有 更 加 强大 的 功 
能 ,可 以 成 为 一 个 集成 化 的 数据 可 视 化 平台 。 能 为 非 专 业 的 工程 师 通 过 图 形 化 的 界面 轻松 
搭建 专业 水 准 的 可 视 化 应 用 。DataV 提供 丰富 的 可 视 化 模板 ,满足 会 议 展览 、 业 务 监 控 、 风 
险 预 警 ,地理 信 息 分 析 等 多 种 业务 的 展示 需求 。 


8.5 Hadoop 


8.5.1 Hadoop 概述 
Hadoop 是 一 个 由 Apache 基金 会 所 开发 的 分 布 式 系统 基础 架构 。 而 Apache 开发 之 
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前 ,其 原型 实际 上 是 来 自 一 个 称 为 Nutch 项 目的 存储 和 处 理 部 分 。 该 项 目 是 Doug Cutting 
和 Mike Cafarella 于 2002 年 开发 的 一 个 专注 于 解决 网 络 疏 虫 .建立 索引 和 搜索 网 页 的 搜索 
引擎 项 目 。 由 于 需要 处 理 大 量 来 自 互联 网 页 面 信息 的 相关 存储 和 处 理 平 台 ,他 们 意识 到 ,一 
个 可 靠 的 分 布 式 计算 方法 .将 有 助 于 为 Nutch 收集 大 量 网 页 数据 提供 有 效 的 保障 。 

而 恰好 在 一 年 后 ,谷歌 公司 发 表 了 关于 谷歌 文件 系统 (GFS) 和 MapReduce 的 论文 ， 
MapReduce 是 一 个 用 来 处 理 大 型 数据 集 的 算法 和 分 布 式 编程 平台 。Cutting 和 Cafarella 认 
为 集群 的 分 布 式 处 理 和 存储 对 于 解决 Nutch 所 遇 到 的 问题 具有 很 大 的 帮助 .因此 就 以 这 些 
论文 为 基础 ,为 Nutch 构建 了 分 布 式 平台 ,其 中 包含 了 人 们 所 熟知 的 Hadoop 分 布 式 文件 系 
统 (HDFS) 和 MapReduce。Nutch 项 目的 成 功 ,被 当时 的 搜索 引擎 Yahoo 看 中 ,于 是 就 聘请 
了 Doug Cutting, 采 用 Hadoop 作为 分 布 式 架构 解决 Yahoo 搜索 引擎 方面 的 问题 。 后 来 , 雅 
虎将 Nutch 项 目的 存储 和 处 理 部 分 剥离 出 来 ,并 形成 Apache 基金 的 一 个 开源 项 目 
Hadoop ,而 Nutch 作为 网 络 疏 虫 的 业务 平台 则 保持 自己 的 独立 性 和 扩展 性 。 

在 Hadoop 之 前 ,也 有 许多 组 织 实 现 了 分 布 式 系统 ,如 通过 多 台 计 算 机 来 分 布 计算 任 
务 , 但 是 分 布 式 系统 的 数据 分 析 解 决 方案 往往 很 复杂 ,应 用 程序 很 难 并 行 运行 在 计算 机 集群 
之 间 , 随 着 群集 增加 ,出 现 故 障 的 概率 也 随 之 增加 。 并 且 容 易 出 错 ,处 理 速 度 受 限 。Hadoop 
与 以 前 的 分 布 式 系统 的 区 别 在 于 以 下 几 方 面 。 

(1) 数据 先进 行 分 布 式 存储 。 

(2) 在 集群 上 备份 多 份 数据 ,从 而 来 提高 可 靠 性 和 实用 性 。 

(3) 隐藏 了 复杂 的 分 布 式 实现 过 程 ,提供 了 一 种 简单 的 编程 方法 。 

(4) 存储 量 大 ,Hadoop 能 够 使 应 用 程序 运行 在 成 千 上 万 的 计算 机 和 PB 级 数据 上 。 

(5) 分 布 式 处 理 与 快速 的 数据 访问 , Hadoop 集群 在 提供 高 效 数据 存储 能 力 的 同时 ,也 
提供 了 快速 的 数据 访问 能 力 。 

(6) 可 靠 性 ,故障 转移 和 可 扩展 性 ,由 于 Hadoop 有 独特 的 设计 和 实施 方式 , Hadoop 可 
以 监测 到 这 些 故 障 , 并 利用 不 同 的 节点 重新 执行 任务 。Hadoop 有 很 好 的 可 扩展 性 ,实现 无 
颖 地 将 多 个 服务 器 整合 到 一 个 集群 ,并 利用 它们 来 存储 数据 执行 程序 。 

由 于 Hadoop 具有 上 述 优点 , 它 已 经 从 搜索 引擎 相关 的 平台 演变 为 一 个 很 流行 的 通用 
的 计算 平台 ,用 于 解决 大 数据 带 来 的 挑战 。 


8.5.2 Hadoop 生态 圈 及 关键 技术 


由 于 Hadoop 的 技术 框架 很 快 得 到 了 研究 人 员 、 开 发 人 员 的 认可 ,于 是 在 开源 社区 中 ， 
许多 解决 Hadoop 大 数据 问题 的 工具 和 软件 被 相继 开发 出 来 ,因此 ,Hadoop 也 从 早期 的 
HDFS 和 MapReduce 编程 框架 ,形成 了 功能 相对 完善 丰富 的 生态 圈 。 图 8-6 所 示 的 是 
Hadoop 生态 圈 的 核心 组 件 。 

下 面 简 述 Hadoop 生态 圈 的 组 成 部 分 ,同时 由 于 Hadoop 生态 圈 中 的 HDFS、 
MapReduce 、Zookeeper、Pig、Hive 等 技术 在 后 来 的 许多 大 数据 平台 中 都 起 到 重要 作用 , 因 
此 这 里 也 对 这 些 关 键 技术 进行 适当 的 阐述 。 

1. HDFS 

Hadoop 生态 圈 的 基本 组 成 部 分 是 Hadoop 分 布 式 文件 系统 CHDFS) 。 

HDFS 是 一 个 主 从 结构 ,一 个 HDFS 集群 是 一 个 名 称 节点 , 它 是 一 个 管理 文件 命名 空 
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图 8-6 ”Hadoop 生态 圈 的 核心 组 件 


间 和 调节 客户 端 访问 文件 的 主 服务 器 ,当然 还 有 一 些 数据 节点 ,通常 是 一 个 节点 一 个 机 器 ， 
它 来 管理 对 应 节点 的 存储 ,其 系统 结构 如 图 8-7 所 示 。HDFS 对 外 开放 文件 命名 空间 并 允 
许 用 户 数据 以 文件 形式 存储 。HDFS 是 一 种 数据 分 布 式 保存 机 制 ,数据 被 保存 在 计算 机 集 
群 上 。HDFS 为 HBase 等 工具 提供 了 基础 。 在 传统 的 操作 系统 中 ,文件 系统 由 文件 目录 表 
(FDT) 文件 分 配 表 (FAT) 和 文件 数据 区 组 成 ,其 中 文件 目录 表 存 储 了 某 个 文件 的 文件 名 、 
文件 属性 等 基本 信息 及 指向 文件 存储 的 第 一 个 块 的 复 号 ,而 文件 存储 的 所 有 块 是 通过 FAT 
来 定义 的 ,真正 的 文件 数据 内 容 则 存储 在 文件 数据 区 。 与 此 类 似 ,HDFS 可 以 看 作 是 FDT、 
FAT 和 文件 数据 区 分 布 在 不 同 的 计算 机 上 而 构成 一 种 分 布 式 文件 系统 。 
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图 8-7 HDFS 文 件 系 统 体系 结构 


HDFS 能 提供 高 吞吐 量 的 数据 访问 ,非常 适合 大 规模 数据 集 上 的 应 用 。 典 型 的 HDFS 
文件 大 小 是 GB 到 TB 的 级 别 。 所 以 , HDFS 被 调整 成 支持 大 文件 的 存 取 。 大 部 分 的 HDFS 
程序 对 文件 操作 需要 的 是 一 次 写 多 次 读 取 的 操作 模式 。 一 个 文件 一 旦 创建 , 写 入 、 关 闭 之 后 
就 不 需要 修改 了 。 这 个 假定 使 数据 一 致 的 问题 简单 化 ,并 使 高 吞吐 量 的 数据 访问 变 得 可 能 。 

故障 的 检测 和 自动 快速 恢复 是 HDFS 一 个 很 核心 的 设计 目标 ,因此 HDFS 具有 高 度 容 
错 性 的 特点 ,适合 部 署 在 廉价 的 机 器 上 。 

当然 ,HDFS 文件 系统 也 提供 了 丰富 的 API, 允许 开发 人 员 进 行文 件 的 访问 。 例 如 ,要 
从 HDFS 上 读 取 文件 ,必须 先 得 到 一 个 FileSystem。HDFS 本 身 就 是 一 个 文件 系统 ,所 以 
只 要 得 到 一 个 文件 系统 后 就 可 以 对 HDFS 进行 相关 操作 。 获 取 文 件 系 统 的 对 象 
FileSystem 的 方法 如 下 : 

















2382) 互联 网 大 数据 处 理 技术 与 应 用 


package hdfs. example; 

import java. net. URI; 

import org. apache. hadoop. conf. Configuration; 
import org. apache. hadoop. fs. FileSystem; 





public class HdfsUtils { 
public static FileSystem getFilesystem( ){ 
FileSystem hdfs = null; 
// 读 取 配 置 文件 ,无 参数 的 Configuration 构造 器 表示 直接 加 载 默 认 资源 
Configuration conf = new Configuration( ); 
try{ 
URI uri= new URI("hdfs://localhost:9000"); 
hdfs = FileSystem. get(uri, conf); 
} 
catch(Exception ex){ 
// 异 常 处 理 
} 
return hdfs; 
|; 
} 


得 到 FileSystem 对 象 后 ,可 以 使 用 如 下 方式 来 打开 文件 。 


FSDataInputStream fsDataInputStream = hdfs. open( path); 


2. MapReduce 

在 Hadoop 系统 中 除了 文件 系统 的 分 布 外 ,计算 任务 也 是 分 布 的 。 计 算 任 务 的 分 布 通 
常 与 文件 系统 的 分 布 有 具有 一 致 的 结构 ,将 两 者 琶 加 在 一 起 ,可 以 得 到 Hadoop 的 系统 架构 ， 
它 包含 一 个 主 控 节 点 和 多 个 从 节点 ,如 图 8-8 所 示 。 主 控 节点 主要 负责 任务 的 调度 和 管理 ， 
从 节点 执行 分 配 的 任务 。 
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图 8-8 ”Hadoop 系统 架构 基本 组 成 


在 该 架构 中 ,客户 端 提 交 计 算 任务 ,并 将 相应 的 数据 文件 存储 在 HDFS 中 ,经 过 
JobTracker 接收 后 ,进行 任务 的 初始 化 ,以 及 数据 的 分 片 、 调 度 和 分 配 一 定 的 从 节点 来 完成 
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任务 。 任 务 开始 执行 后 ,TaskTracker 根据 所 分 配 的 具体 任务 ,获得 计算 数据 。 任 务 执行 完 
成 后 ,如 果 是 Map 任务 , 则 将 中 间 结 果 数 据 输出 到 HDFS 文件 系统 中 ; 如 果 是 Reduce 任 
务 , 则 输出 最 终结 果 。 最 后 由 TaskTracker 向 JobTracker 报告 所 分 配 的 任务 执行 完毕 。 

MapReduce 是 该 架构 进行 分 布 式 计算 的 执行 框架 ,是 基于 该 架构 的 一 种 逻辑 结构 。 每 
个 分 片 的 数据 块 对 应 于 一 个 Map 任务 ,这 些 任务 可 以 同时 在 从 节点 上 运行, 并行 化 地 处 理 
输入 的 数据 。Map 计算 结果 数据 会 被 排序 ,并 且 这 些 数据 会 被 送 给 另 一 类 计算 节点 ,完成 
Reduce 任务 。 执 行 Map 任务 的 节点 称 为 Map 节点 ,而 执行 Reduce 任务 的 节点 称 为 
Reduce 节点 ,它们 都 是 由 JobTracker 动态 分 配 指定 的 。 

MapReduce 是 Hadoop 的 主要 执行 框架 ,在 其 他 许多 大 数据 分 布 式 系统 中 也 都 是 基于 
该 执行 框架 。 它 是 一 个 分 布 式 、. 并 行 处 理 的 编程 模型 。 

MapReduce 的 灵感 来 源 于 函数 式 语 言 (如 Lisp) 中 的 内 置 函数 map 和 reduce。 在 函数 
式 语言 中 ,map 表示 对 一 个 列表 (List) 中 的 每 个 元 素 做 计算 ,reduce 表示 对 一 个 列表 中 的 每 
个 元 素 做 迭代 计算 。 具 体 的 计算 是 通过 传人 的 函数 来 实现 的 ,而 map 和 reduce 提供 的 是 计 
算 的 框架 。 

在 MapReduce 中 ,Map 处 理 的 是 原始 数据 ,在 Reduce 阶段 ,数据 是 以 < key,value > 形 
式 来 组 织 的 ,这 些 value 有 相关 性 ,至 少 它们 都 在 一 个 key 下 面 ,于 是 就 符合 函数 式 语言 
map 和 reduce 的 基本 思想 了 。 

MapReduce 把 计算 任务 分 为 Map( 映 射 ) 阶 段 和 Reduce( 化 简 ) 阶 段 。 开 发 人 员 使 用 存 
储 在 HDFS 中 原始 数据 ,编写 Hadoop 的 MapReduce 任务 , 即 定义 map 隐 数 和 reduce 函 
数 ,这 两 个 函数 定义 了 任务 本 身 。 由 于 MapReduce 工作 原理 的 特性 , Hadoop 能 以 并 行 的 
方式 访问 数据 ,从 而 实现 快速 访问 数据 。 

3. ZooKeeper 

ZooKeeper 用 于 Hadoop 的 分 布 式 协调 服务 ,HBase 内 置 有 ZooKeeper。Hadoop 的 许 
多 组 件 依赖 于 ZooKeeper. 它 运行 在 计算 机 集群 上 面 ,用 于 管理 Hadoop 操作 ,为 分 布 式 应 
用 提供 一 致 性 服务 ,提供 的 功能 包括 配置 维护 、 域 名 服务 ,分布 式 同步 ,组 服务 等 。 
ZooKeeper 包含 一 个 简单 的 原 语 集 .提供 Java 和 C 的 接口 。 

从 设计 模式 角度 来 看 ,ZooKeeper 是 一 个 基于 观察 者 模式 设计 的 分 布 式 服务 管理 框架 ， 
它 负责 存储 和 管理 大 家 都 关心 的 数据 ,然后 接收 观察 者 的 注册 ,一 旦 这 些 数据 的 状态 发 生变 
化 ,ZooKeeper 就 将 负责 通知 已 经 在 Zookeeper 上 注册 的 那些 观察 者 做 出 相应 的 反应 。 

ZooKeeper 的 典型 应 用 场景 包括 以 下 几 种 。 

1) 统一 命名 服务 (Name Service) 

分 布 式 应 用 中 ,通常 需要 有 一 套 完 整 的 命名 规则 , 既 能 够 产生 唯一 的 名 称 又 便于 人 识别 
和 记 住 ,通常 情况 下 用 树 形 的 名 称 结构 是 一 个 理想 的 选择 , 树 形 的 名 称 结构 是 一 个 有 层次 的 
目录 结构 , 既 对 人 友好 又 不 会 重复 。ZooKeeper 的 Name Service 与 JNDI 能 够 完成 的 功能 
是 差不多 的 ,它们 都 是 将 有 层次 的 目录 结构 关联 到 一 定 资源 上 ,但 是 ZooKeeper 的 Name 
Service 强调 的 是 广泛 意义 上 的 关联 ,也 许 并 不 需要 将 名 称 关联 到 特定 资源 上 ,只 是 需要 一 
个 不 会 重复 名 称 , 就 像 数 据 库 中 产生 一 个 唯一 的 数字 主键 一 样 。 

Name Service 已 经 是 ZooKeeper 内 置 的 功能 ,开发 者 只 要 调用 Zookeeper 的 API 就 能 
实现 ,如 调用 create 接口 就 可 以 很 容易 创建 一 个 目录 节点 。 
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2) 配置 管理 (Configuration Management) 

配置 的 管理 在 分 布 式 应 用 环境 中 很 常见 ,如 同一 个 应 用 系统 需要 多 台 PC Server 运行 ， 
但 是 它们 运行 的 应 用 系统 的 某 些 配置 项 是 相同 的 .如 果 要 修改 这 些 相同 的 配置 项 ,那么 就 必 
须 同时 修改 每 台 运 行 这 个 应 用 系统 的 PC Server, 这 样 会 非常 麻烦 而 且 容 易 出 错 。 

像 这 样 的 配置 信息 完全 可 以 交 给 ZooKeeper 来 管理 ,将 配置 信息 保存 在 ZooKeeper 的 
某 个 目录 节点 中 ,然后 将 所 有 需要 修改 的 应 用 机 器 监控 配置 信息 的 状态 ,一 旦 配置 信息 发 生 
变化 ,每 台 应 用 机 器 就 会 收 到 ZooKeeper 的 通知 ,然后 从 ZooKeeper 获取 新 的 配置 信息 应 
用 到 系统 中 。 

3) 集群 管理 (Group Membership) 

ZooKeeper 能 够 很 容易 地 实现 集群 管理 的 功能 ,如 有 多 台 Server 组 成 一 个 服务 集群 ， 
那么 必须 要 一 个 “总管 "知道 当前 集群 中 每 台 机 器 的 服务 状态 ,一 旦 有 机 器 不 能 提供 服务 , 集 
群 中 其 他 集群 必须 知道 ,从 而 做 出 调整 ,重新 分 配 服务 策略 。 同 样 当 增加 集群 的 服务 能 力 
时 ,就 会 增加 一 台 或 多 台 Server, 同 样 也 必须 让 “总 管 ”知道 。 

ZooKeeper 不 仅 能 够 帮助 管理 员 维 护 当 前 的 集群 中 机 器 的 服务 状态 ,而 且 能 够 帮助 管 
理 员 选 出 一 个 “总 管 ”, 让 这 个 总 管 来 管理 集群 ,这 就 是 ZooKeeper 的 另 一 个 功能 Leader 
Election 。 

4) 共享 锁 (Locks) 

共享 锁 在 同一 个 进程 中 很 容易 实现 ,但 是 在 跨 进程 或 在 不 同 Server 之 间 就 不 容易 实现 
了 。ZooKeeper 却 能 很 容易 实现 这 个 功能 ,实现 方式 也 是 需要 获得 锁 的 Server 创建 一 个 
EPHEMERAL_SEQUENTIAL 目录 节点 ,然后 调用 getChildren 方法 获取 当前 的 目录 节点 
列表 中 最 小 的 目录 节点 是 不 是 就 是 自己 创建 的 目录 节点 ,如 果 正 是 自己 创建 的 ,那么 它 就 获 
得 了 这 个 锁 , 如 果 不 是 它 就 调用 exists(String path，boolean watch) 方 法 并 监控 ZooKeeper 
上 目录 节点 列表 的 变化 .一 直到 自己 创建 的 节点 是 列表 中 最 小 编号 的 目录 节点 ,从 而 获得 
锁 ,释放 锁 很 简单 ,只 要 删除 前 面 它 自己 所 创建 的 目录 节点 就 可 以 。 

为 了 说 明 ZooKeeper 在 集群 管理 中 的 应 用 ,这 里 以 一 个 分 布 式 搜索 引擎 系统 为 例 。 假 
设 一 个 分 布 式 搜索 引擎 系统 的 体系 架构 如 图 8-9 所 示 , 该 体系 架构 中 有 NN 台 搜 索 服务 器 、 


-A 


客户 端 浏览 器 














服务 器 1 服务 器 2 服务 器 3 服务 器 N 
图 8-9 分 布 式 搜索 引擎 系统 的 体系 架构 
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两 台 主 服务 器 和 一 台 Web 服务 器 。 搜 索 服 务 器 负责 总 索引 中 的 一 部 分 的 搜索 任务 , 主 服务 
器 1 负责 向 N 个 搜索 服务 器 发 出 搜索 请 求 ,并 对 各 个 搜索 服务 器 返回 的 结果 进行 合并 ,将 
合并 结果 返回 给 Web 服务 器 。 主 服务 器 2 起 到 备用 作用 ,当主 服务 器 1 出 现 问 题 时 接管 主 
服务 器 1 的 工作 。Web 服务 器 为 用 户 提 供 Web 页 面 ,同时 在 接收 到 用 户 查 询 请 求 后 向 主 
服务 器 1 提交 搜索 请 求 。 

在 这 样 的 分 布 式 系统 中 ,两 种 情况 需要 不 同 服务 器 之 间 进 行 协 作 。 一 是 搜索 服务 器 故 
障 或 搜索 服务 器 需要 独占 时 间 进 行 索引 库 维 护 时 ; 二 是 主 服务 器 1 和 主 服 务 器 2 之 间 状 态 
的 共享 。 主 服务 器 应 当 及 时 获得 这 种 状态 ,否则 用 户 的 检索 请 求 就 会 受到 影响 。 使 用 
ZooKeeper 可 以 保证 主 服 务 器 自动 及 时 地 获知 提供 搜索 引擎 的 搜索 服务 器 并 向 这 些 服务 器 
发 出 搜索 请 求 , 当 主 服务 器 1 故障 时 自动 启用 备用 的 主 服 务 器 2。 在 ZooKeeper 的 执行 框 
架 中 ,要 实现 分 布 式 协调 服务 只 需 在 开发 部 署 时 按照 一 定 要 求 进行 即 可 。 以 下 就 是 所 需要 
的 步骤 。 

(1) 每 个 搜索 服务 器 都 在 ZooKeeper 中 创建 znode: 


zk. create ( "/search/nodes/nodel"," hostname". getBytes ( )，Ids. OPEN_ACL_UNSAFE, CreateFlags. 
EPHEMERAL) ; 


(2) 主 服务 器 1 按照 下 面 方 式 从 Zookeeper 中 获取 一 个 znode 的 子 节点 的 列表 : 


zk. getChildren("/search/nodes", true); 


(3) 主 服务 器 1 遍历 这 些 子 节点 ,并 获取 子 节点 的 数据 生成 可 以 提供 搜索 服务 的 搜索 
服务 器 列表 。 

(4) 当主 服务 器 1 接收 到 子 节点 变化 的 事件 信息 时 ,重新 返回 第 (2) 步 。 

(5) 主 服务 器 1 在 ZooKeeper 中 创建 节点 : 


zk. create ( "/search/master", "hostname". getBytes ( ), Ids. OPEN _RCL _UNSAFE, CreateFlags. 
EPHEMERAL) ; 


(6) 主 服务 器 2 监控 ZooKeeper 中 的 "/search/master" 节 点 , 当 这 个 znode 的 节点 数据 
改变 时 ,把 自己 启动 变 成 主 服 务 器 1, 并 把 自己 的 网 络 地 址 数据 放 进 这 个 节点 。 

(7) Web 服务 器 的 执行 程序 从 ZooKeeper 中 "/search/master" 节 点 获取 主 服务 器 1 的 
网 络 地 址 数据 并 向 其 发 送 搜索 请 求 。 

(8) Web 服务 器 的 执行 程序 监控 ZooKeeper 中 的 "/search/master" 节 点 , 当 这 个 znode 
的 节点 数据 改变 时 ,从 这 个 节点 获取 主 服务 器 1 的 网 络 地 址 数据 ,并 改变 当前 的 主 服务 器 的 
网 络 地 址 。 

4. Pig 

如 前 所 述 ,Hadoop 的 出 现 也 与 Yahoo 有 很 密切 的 渊源 ,Pig 最 初 正 是 由 雅虎 公司 推出 
来 的 ,现在 已 成 为 Apache 中 的 一 款 开 源 系 统 。 

Pig 系统 的 主要 功能 就 是 在 MapReduce 框架 上 实现 了 一 套 轻 量 级 的 脚本 语言 , 称 为 
Pig Latin。 从 程序 理论 的 角度 来 看 , 它 是 MapReduce 编程 复杂 性 的 一 种 抽象 化 。 利 用 这 套 
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脚本 语言 ,可 以 对 Hadoop 中 来 自 HDFS 或 HBase 中 的 数据 进行 加 载 、 排 序 、 过 滤 、 求 和 ,分 
组 (Group by)、 关 联 (Joining), 同 时 Pig 也 支持 由 用 户 自 定义 一 些 函 数 (user-defined 
functions) 对 数据 集 进行 操作 。 因 此 ,利用 这 些 脚本 语言 ,可 在 Hadoop 上 加 载 数 据 、 表 达 转 
换 数据 及 存储 最 终结 果 。 脚 本 的 使 用 简化 了 Hadoop 常见 的 工作 任务 ,为 复杂 的 海量 数据 
并 行 计算 提供 了 一 个 简单 的 操作 和 编程 接口 ,避免 直接 编写 MapReduce jobs 所 带 来 的 麻 
烦 , 相 比 于 直接 使 用 Hadoop Java APIs 而 言 可 以 大 幅 减少 代码 量 。 

除了 这 种 脚本 语言 外 ,Pig 平台 还 提供 了 一 个 运行 环境 , 称 为 Pig Interface。 运 行 环境 
的 主要 组 成 就 是 一 个 编译 器 ,该 编译 器 可 以 将 Pig Latin 脚本 语言 翻译 成 一 系列 经 过 优化 处 
理 的 MapReduce 程序 序列 。 因 此 ,就 更 加 方便 了 对 Hadoop 的 各 种 操作 。 

可 以 从 官网 http://pig. apache. org 下 载 最 新 版 本 , 目前 版 本 是 0. 16.0。 在 安装 配置 
完 之 后 ,执行 命令 : 





$ PIG_HOME/bin/pig 


就 能 进入 Pig 的 shell 模式 。 

下 面 通过 一 些 基 本 操作 来 了 解 Pig 的 功能 。 

(1) 基本 的 HDFS 操作 。 在 Hadoop 下 查看 HDFS 中 data 目录 下 的 所 有 文件 ,必须 使 
用 hdfs dfs-ls/data 之 类 的 复杂 命令 ,而 在 Pig 的 交互 模式 下 ,只 需要 执行 fs-ls/data 命令 即 
可 。 查 看 文件 内 容 , 也 只 需要 执行 cat 命令 ,而 不 需要 像 Hadoop 中 执行 fs-cat 命令 。 

其 他 一 些 相 关 的 文件 操作 命令 如 下 : 


fs 一 mkdir /tmp // 创 建 一 个 目录 
fs -copyFromLocal file- x file-y // 复 制 文件 


更 多 的 命令 可 以 在 http://pig. apache. org/docs/r0.16.0/cmds. html 找到 。 

(2) 基本 的 数据 分 析 。 在 基本 的 数据 分 析 方 面 ,Pig 提供 了 类 似 于 SQL 的 一 种 脚本 语 
言 。Pig Latin 定义 这 种 语言 的 数据 类 型 .运算 符 、 约 东 、 表 达 式 、 关 键 字 、 标 识 符 等 基本 的 语 
言 要 素 。 其 定义 的 基本 数据 类 型 包括 int、long、float、double、boolean、datetime 等 ,在 其 他 
语言 常见 的 类 型 中 ,也 包括 chararray、bytearray 等 新 的 类 型 。 

一 个 有 效 的 标识 符 必须 以 字母 开始 ,后 续 跟 着 若干 字母 数字 或 下 面 线 ,与 其 他 语言 
似 , 标 识 符 用 于 对 变量 、 字 段 名 、 关 系 等 的 命名 。 

Pig 语言 中 对 数据 的 操作 和 管理 是 基于 关系 (Relations) 、 袋 子 (Bags) ,元 组 (Tuples) 和 
字段 (Fields) 等 基本 概念 。 其 中 袋子 (Bags) 是 元 组 所 构成 的 集合 。 一 个 关系 就 类 似 于 关系 
型 数据 库 中 的 表 , 而 元 组 则 对 应 于 数据 表 中 的 行 。 但 是 ,与 关系 型 数据 库 不 同 的 是 ,Pig 的 
关系 中 并 不 要 求 每 个 元 组 都 包含 相同 数量 的 字段 ,也 不 要 求 同 一 个 列 对 应 的 字段 有 相同 的 
数据 类 型 。 同 时 ,这 些 关 系 也 是 无 序 的 .不 能 保证 元 组 按照 某 个 顺序 来 处 理 。 

Pig 提供 的 运算 符 有 以 下 几 种 。 

(1) load: 从 文件 系统 加 载 数据 。 

(2) filter: 可 以 基于 某 个 条 件 从 关系 中 选择 一 组 元 组 。 

(3) foreach: 对 某 个 关系 的 元 组 进行 迭代 ,生成 一 个 数据 转换 。 
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(4) group: 将 数据 分 组 为 一 个 或 多 个 关系 。 

(5) join: 连接 两 个 或 两 个 以 上 的 关系 (内 部 或 外 部 连接 ) 。 

(6) order: 根据 一 个 或 多 个 字段 对 关系 进行 排序 。 

(7) split: 将 一 个 关系 划分 为 两 个 或 两 个 以 上 的 关系 。 

(8) store: 在 文件 系统 中 存储 数据 。 

以 下 的 例子 是 由 Pig 提供 的 ,对 load ,join .group 等 运算 符 进行 解释 。 


// 将 数据 加 载 到 关系 A 中 ,包含 了 学 生 姓 名 ,年 龄 和 绩 点 

A= load 'student'as (name:chararray, age:int, gpa:float); 
// 查 看 关系 中 的 所 有 行 

DUMP A; 

(joe, 18,2.5) 

(sam, ,3.0) 

(bob, ,3.5) 

// 进 行 数据 分 组 , 按 年 龄 分 组 ,并 显示 分 组 结果 

X= group A by age; 

dump X; 

(18, {(joe, 18,2.5)}) 

(,{ (sam, ,3.0), (bob, ,3.5)}) 

// 进 行 join 操作 ,将 A 和 B 按 照 年 龄 进行 连接 ,并 显示 结果 
及 = load 'student' as (name:chararray, age:int, gpa:float); 
B= load 'student' as (name:chararray, age:int, gpa:float); 
dump B; 

(joe, 18,2.5) 

(sam, ,3.0) 

(bob, ,3.5) 

X= join A by age, B by age; 

ump X; 

(joe, 18,2.5, joe,18,2.5) 


关于 数据 分 析 方面 更 多 的 命令 可 以 在 Pig 官方 页 面 上 找到 ,官方 网 址 为 http://pig. 


apache. org/docs/r0. 16. 0/basic. html。 


根据 上 述 的 一 些 简 单 示例 .可 以 看 出 ,Pig 就 是 在 Hadoop 上 构建 的 一 种 脚本 语言 ,利用 


这 种 语言 可 以 方便 地 以 类 似 于 SQL 的 形式 来 进行 数据 加 载 、 连 接 等 处 理 , 并 对 NoSQL 提 
供 了 支持 。 


5. Hive 
Hive 也 是 一 种 类 似 于 SQL 的 高 级 语言 , 它 起 源 于 Facebook。 主 要 用 于 运行 存储 在 


Hadoop 上 的 查询 语句 ,Hive 让 不 熟悉 MapReduce 开发 人 员 也 能 编写 数据 查询 语句 ,然后 
这 些 语句 被 翻译 为 Hadoop 上 面 的 MapReduce 任务 。 从 这 些 功 能 的 描述 来 看 , Hive 与 Pig 
有 相同 之 处 。 两 者 的 主要 区 别 在 于 Hive 更 适合 于 数据 仓库 的 任务 ,具有 更 明显 的 数据 库 
竺 征 。 Hive 有 数据 表 的 概念 ,在 Hive 中 可 以 执行 插入 /删除 等 操作 ,同时 也 支持 JDBC/ 
ODBC 的 数据 库 连 接 。 而 在 Pig 中 并 没有 表 的 概念 ,也 不 能 支持 JDBC/ODBC 的 数据 库 连 
接 访问 。 


图 8-10 所 示 的 是 Hive 体系 结构 的 主要 组 件 及 它 和 Hadoop 之 间 的 交互 ,图 中 为 了 便 
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于 理解 将 Hadoop 的 内 部 结构 也 画 在 一 起 了 ,该 图 展示 了 一 个 查询 在 系统 中 的 处 理 过 程 。 




































































































Hive 的 主要 组 件 介绍 如 下 。 
Hive Hadoop 
8:sendResults 6.l:executeJob Map/Reduce 
| | 
Execution | 6.2:jobDone Job Tracker 
Engine “| 一 
6:executePlan 
6.3 dfs operations Map/Reduce 
Task Trackers Tasks 。 Task Trackers 
l:execute (Map) (Reduce) 
Query E I 证 I 
ur| Zeteh G6.1:metaDataOps en Ce 
Results for DDLs Tee Wee 
Serde Serde 
Deserialize Deserialize 









































Compiler | 4:sendMeta | Metastore 
Data 





Name Node 


5:sendPlan | | 让 
3:getMeta eads/Writes HDFS 
Data | to HDFS 


























Data Nodes 






































9:fetchResults 
图 8-10 ”Hive 的 体系 结构 


(1) 用 户 界面 (UD 。UI 即 Hive 的 用 户 界面 ,用 户 可 以 在 此 界面 上 提交 查询 和 其 他 操 
作 命令 。 目 前 的 UI 有 命令 行 方式 和 基于 Web 的 GUI 模式 两 种 。 

(2) 驱动 器 (Driver)。 该 组 件 接受 用 户 的 查询 请 求 , 实 现 了 创建 相应 处 理会 话 
(Session) 句 柄 的 表示 ,并 通过 JDBC/ODBC 驱动 程序 API 向 编译 器 发 送 查 询 请 求 , 以便 产 
生 执 行 计划 。 

(3) 编译 器 (Compiler) 。 编 译 器 从 元 存储 器 (Metastore) 获得 必要 的 元 数据 ,这 些 元 数 
据 主要 是 与 数据 表 和 分 区 有 关 。 同 时 该 组 件 解析 用 户 的 查询 命令 ,针对 查询 表达 式 进 行 语 
义 分 析 ,在 元 数据 的 帮助 下 ,最 终 产生 一 个 执行 计划 。 

(4) 存储 器 (Metastore) 。 该 组 件 存储 了 数据 仓库 中 各 种 表 和 分 区 的 所 有 结构 信息 , 包 
括 列 名 、 列 的 数据 类 型 ,同时 也 存储 了 读 写 HDFS 文件 系统 的 必要 信息 。 

(5) 执行 引擎 (Execution Engine) 。 该 组 件 执行 由 编译 器 创建 的 执行 计划 。 

在 Hive 中 数据 是 被 组 织 成 为 表 (Tables) .分 区 (Partitions) 和 桶 (Buckets) 。 其 中 的 表 
与 关系 型 数据 库 中 的 表 类 似 ,在 表 上 也 进行 过 滤 、 投 影 . 连 接 和 联合 等 操作 。 而 所 有 表 的 数 
据 都 是 存储 在 HDFS 中 的 某 个 目录 中 ,每 个 表 可 以 分 成 一 个 或 多 个 数据 区 ,每 个 数据 分 区 
中 的 数据 可 以 根据 列 的 名 称 进一步 分 割 成 为 桶 ,每 个 桶 被 存储 为 数据 分 区 对 应 的 目录 中 的 
一 个 文件 。 分 区 和 桶 都 是 对 数据 的 一 种 划分 存储 ,只 是 前 者 的 划分 粒度 比 后 者 粗 , 不 过 划分 
的 目的 都 是 为 了 让 数据 查询 在 小 范围 的 数据 中 进行 以 提高 效率 。 

6. 其 他 部 件 

(1) HBase 是 一 个 建立 在 HDFS 之 上 ,面向 列 的 NoSQL 数据 库 ,以 键 值 对 的 形式 存储 ,用 
于 快速 读 / 写 大 量 数据 。HBase 使 用 ZooKeeper 进行 管理 ,确保 所 有 组 件 都 正常 运行 。 
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(2) Oozie 是 一 个 可 扩展 的 工作 体系 ,集成 于 Hadoop 的 堆栈 ,用 于 协调 多 个 
MapReduce 作业 的 执行 。 它 能 够 管理 一 个 复杂 的 系统 ,基于 外 部 事件 来 执行 ,外 部 事件 包 
括 数据 的 定时 和 数据 的 出 现 。 

(3) Sqoop 是 一 个 连接 工具 ,用 于 在 关系 数据 库 、 数 据 仓库 和 Hadoop 之 间 转 移 数据 。 
Sqoop 利用 数据 库 技术 描述 架构 ,进行 数据 的 导入 /导出 ; 利用 MapReduce 实现 并 行 化 运 
行 和 容错 技术 。 

(4) Flume 提供 了 分 布 式 、 可 靠 高 效 的 服务 ,用 于 收集 、 汇 总 大 数据 ,并 将 单 台 计算 机 的 
大 量 数据 转移 到 HDFS。 它 基于 一 个 简单 而 灵活 的 架构 ,并 提供 了 数据 流 的 流 。 它 利用 简 
单 的 可 扩展 的 数据 模型 ,将 企业 中 多 台 计 算 机 上 的 数据 转移 到 Hadoop。 

上 述 的 (3)、 4) 框架 是 用 来 与 其 他 企业 的 融合 。 除 了 在 图 8-6 所 示 的 核心 部 件 外 ， 
Hadoop 生态 圈 正 在 不 断 增 长 ,以 提供 更 新 功能 和 组 件 , 如 以 下 内 容 。 

(1) Whirr。Whirr 是 一 组 用 来 运行 云 服务 的 Java 类 库 ,使 用 户 能 够 轻松 地 将 Hadoop 
集群 运行 于 Amazon EC2、Rackspace 等 虚拟 云 计算 平台 。 因 此 , 它 提供 了 一 种 极为 方便 的 
途径 来 启动 一 个 集群 。 

在 这 些 Java 类 库 中 ,主要 有 org. apache. whirr 和 org. apache. whirr. service 两 类 。 

org. apache. whirr 是 客户 端 API, 其 中 的 ClusterController 类 是 用 于 对 云 中 的 集群 进 
行 配置 .启动 ,停止 等 管理 。 

org. apache. whirr. service 是 whirr 服务 API, 提供 的 服务 接口 主要 有 org. apache. 
whirr。service。hadoop org. apache. whirr. service. hbase, org. apache. whirr. service. 
mahout .org. apache. whirr. service. pig ,org. apache. whirr. service. solr .org. apache. whirr. 
service, yarn, org. apache. whirr. service. zookeeper, 

当然 ,除了 Java 的 调用 执行 模式 外 , Whirr 也 提供 了 命令 行 执行 模式 。 其 前 提 是 需要 
Java 6 .一 个 云 提供 商 的 账号 及 SSH 客户 端 。 在 安装 Whirr 之 后 ,就 可 以 进行 集群 的 配置 。 
首先 创建 一 个 属性 文件 来 定义 集群 ,如 以 下 定义 了 一 个 集群 ,并 保存 为 hadoop. properties。 

whirr.cluster ~ name = myhadoopcluster 

whirr. instance 一 templates = 1 hadoop — jobtracker + hadoop - namenode, 1 hadoop - datanode + 

hadoop - tasktracker 

whirr. provider = aws 一 ec2 


whirr. private— key -file= $ {sys:user. home}/. ssh/id_rsa 
whirr. public - key - file= $ {sys:user. home}/. ssh/id_rsa. pub 


这 样 ,可 以 通过 以 下 命令 来 启动 这 个 集群 : 

% bin/whirr launch— cluster —- config hadoop. properties 

启动 集群 后 , 接 下 来 就 可 以 执行 各 种 Hadoop 上 的 命令 ,并 运行 MapReduce 任务 : 
% hadoop fs -1s/ 

hadoop fs 一 mkdir input 

hadoop fs 一 put $ HADOOP_HOME/LICENSE. txt input 


hadoop jar $ HARDOOP_HOME/hadoop - * examples * . jar wordcount input output 
hadoop fs — cat output/part— * | head 
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最 后 ,可 以 通过 以 下 命令 来 销毁 这 个 集群 : 





% bin/whirr destroy- cluster -- config hadoop. properties 


(2) Mahout。Mahout 是 一 个 机 器 学 习 和 数据 挖掘 库 。 它 提供 的 MapReduce 包含 很 
多 实现 ,包括 聚 类 算法 、 回 归 测试 .统计 建 模 ,协同 过 滤 等 。 但 是 并 不 是 所 有 这 些 类 别 中 的 算 
法 都 可 以 用 MapReduce 进行 并 行 实现 ,在 Mahout 中 每 种 类 别 支持 的 算法 如 下 。 

Oa 分 类 算法 : 逻辑 回归 、Bayes 分 类 、SVM、 随 机 森林 、HMM、Winnow、Boosting、 受 限 
波 尔 兹 曼 机 等 。 

@ 聚 类 算法 : Canopy、Mean-Shift、.EM、K-means 模糊 K-means、 层 次 聚 类 、LDA 、 谱 聚 
类 等 。 

@ 模式 挖掘 : 并 行 FP Growth 算法 。 

@ 降 维 算法 : SVD、PCA ICA。 

@ 协同 推荐 : 分 布 式 基于 项 的 协同 过 滤 、 使 用 并 行 矩阵 分 解 的 协同 过 滤 等 。 

(3) BigTop。BigTop 作为 Hadoop 子 项 目 和 相关 组 件 ,是 一 个 用 于 打包 和 互 用 性 测试 
的 程序 和 框架 。 

(4) Ambari。Ambari 通过 为 配置 .管理 和 监控 Hadoop 集群 提供 支持 ,简化 了 Hadoop 
的 管理 流程 。 


8. 5.3 Hadoop 的 版 本 


Hadoop 遵从 Apache 开源 协议 ,用 户 可 以 免费 地 任意 使 用 和 修改 Hadoop ,也 正 因 为 如 
此 ,市 面 上 出 现 了 很 多 Hadoop 版 本 ,Hadoop 的 版 本 演化 比较 乱 ,版 本 选择 也 因此 成 为 困扰 
初级 者 的 问题 。 

Hadoop 版 本 的 演化 关系 比较 复杂 ,不 同 版 本 所 支持 的 组 件 和 服务 有 所 不 同 。 有 两 个 
关注 度 较 高 的 Hadoop 发 行 版 ,分 别 由 亚马逊 和 微软 发 布 。 两 者 都 提供 Hadoop 的 预 安装 
版 本 ,运行 于 相应 的 云 服务 平台 (Amazon or Azure) ,提供 PaaS 服务 。 它 们 都 提供 了 扩展 服 
务 , 允 许 开发 人 员 不 仅 能 够 利用 Hadoop 的 本 地 HDFS,. 也 可 以 通过 HDFS 映射 利用 微软 和 
雅虎 的 数据 存储 机 制 (Amazon 的 S3 和 Azure 的 Windows Azure 存储 机 制 )。 亚 马 逊 还 提 
供 了 在 S3 上 保存 和 恢复 HBase 内 容 的 功能 。 

(1) 亚马逊 弹性 MapReduce(EMR) 。 亚 马 逊 EMR 是 一 个 Web 服务 ,能 够 使 用 户 方 
便 且 经 济 高 效 地 处 理 海量 的 数据 。 它 采用 Hadoop 框架 ,运行 在 亚马逊 弹性 计算 云 EC2 和 
简单 存储 服务 S3 之 上 ,包括 HDFS(S3 支持 )、HBase( 专 有 的 备份 恢复 )、MapReduce、 Hive 
(Dynamo 的 补充 支持 )、Pig 和 ZooKeeper。 

(2) Windows Azure 的 HDlnsight : HDlnsight 基于 Hortonworks 数据 平台 (HDP)， 
运行 在 Azure 云 。 它 集成 了 微软 管理 控制 台 , 易 于 部 署 ,易于 System Center 的 集成 。 通 过 
使 用 Excel 插件 ,可 以 整合 Excel 数据 。 通 过 Hive 开放 式 数据 库 连接 (ODBC) 驱 动 程序 ,可 
以 集成 Microsoft SQL Server 分 析 服 务 (SSAS)、PowerPivot 和 Power View。 Azure 
Marketplace 授权 客户 连接 数据 ,智能 挖掘 算法 及 防火 墙 之 外 的 应 用 或 数据 。Windows 
Azure Marketplace 从 受信 任 的 第 三 方 供应 商 中 ,提供 了 数 百 个 数据 集 。 
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8.6 Spark 


8.6.1 Spark 的 概述 


2009 年 ,UC Berkeley AMP 实验 室 将 Spark 作为 一 个 研究 项 目 创建 ,不 久 后 ,就 发 表 了 
有 关于 Spark 的 学 术 性 文章 ,表明 在 一 些 特定 任务 中 ,Spark 的 速度 可 以 达到 MapReduce 
的 10 一 20 倍 。 

2011 年 ,AMP 实验 室 开 始 开发 Spark 上 的 上 层 组 件 , 如 Shark 和 Spark 流 。 所 有 这 些 
组 件 有 时 被 称 为 伯克利 数据 分 析 栈 (Berkeley Data Analytics Stack,BDAS) 。 

2010 年 3 月 ,Spark 开源 ,并 于 2014 年 6 月 移 人 Apache 软件 基金 会 。 自 从 创建 以 来 ， 
Spark 是 一 个 非常 活跃 的 项 目 和 社区 ,每 个 发 布 版 本 的 贡献 者 都 在 增长 。Spark 1. 0 有 超过 
100 个 贡献 者 。 尽 管 活跃 等 级 迅速 增长 ,社区 依然 以 一 个 固定 的 规划 发 布 Spark 的 更 新 版 
本 。Spark 1.0 在 2014 年 5 月 发 布 ,目前 的 最 新 版 本 是 于 2016 年 7 月 发 布 的 Spark 2. 0. 0。 

Spark 是 一 种 与 Hadoop 相似 的 开源 集群 计算 环境 ,但 不 同 于 MapReduce 的 是 Job 中 
间 输 出 结果 可 以 保存 在 内 存 中 ,从 而 不 再 需要 读 写 HDFS, 因 此 Spark 能 更 好 地 适用 于 数据 
挖掘 与 机 器 学 习 等 需要 迭代 的 MapReduce 的 算法 ,可 以 更 好 地 对 大 数据 进行 挖掘 分 析 。 
Spark 是 Hadoop 之 后 的 一 种 面向 集群 计算 环境 ,因此 有 必要 搞 清 楚 两 者 之 间 的 区 别 和 
联系 。 

相 比 于 Hadoop,Spark 具有 以 下 特点 。 

(1) 数据 处 理 速度 更 快 。 由 于 使 用 了 弹性 分 布 式 数据 集 (RDD) ,可 以 在 内 存 上 透明 地 
存储 数据 ,把 处 理 过 程 的 中 间 数 据 存储 在 内 存 中 :减少 对 磁盘 的 读 写 次 数 , 从 而 使 得 数据 处 
理 速度 更 快 。Spark 实现 了 亚 秒 级 的 延迟 ,这 对 于 Hadoop MapReduce 是 无 法 想象 的 。 

(2) Spark 的 集群 是 为 特定 类 型 的 工作 负载 而 设计 。Spark 和 Hadoop 一 样 ,都 是 一 种 
集群 计算 环境 ,但 它 可 以 针对 那些 在 处 理 过 程 中 需要 大 量 重用 数据 集 的 迭代 型 工作 负载 。 
因此 ,除了 可 以 对 数据 集 进 行 反复 查询 外 ,其 典型 应 用 场景 就 是 各 种 机 器 学 习 算 法 ,其 中 的 
模型 训练 过 程 一 般 都 需要 在 某 个 特定 的 数据 集 上 进行 迭代 和 运算。 因此 ,Spark 的 这 种 特性 
有 利于 降低 用 户 进行 数据 挖掘 的 学 习 成 本 .促进 大 数据 应 用 开发 。 

(3) 形式 多 样 的 数据 集 操作 原 语 。 在 Hadoop 中 最 基本 的 数据 操作 原 语 是 MapReduce 
所 提供 的 map 和 reduce, 由 此 产生 的 一 个 局 限 就 是 有 些 算 法 无 法 用 MapReduce 来 实现 。 
Spark 所 提供 的 数据 集 操作 类 型 要 多 得 多 ,. 即 所 谓 的 Transformations, 包 括 map、 filter、 
flatMap 、sample、groupByKey、reduceByKey、union join、 cogroup、 mapValues、sort、 
partionBy 等 ,以 及 Count、collect、reduce、lookup、save 等 多 种 actions。 而 且 处 理 节点 之 间 
的 通信 模型 不 像 Hadoop 那样 是 唯一 的 Data Shuffle 模式 。 显 然 这 些 丰 富 的 数据 集 操作 原 
语 为 大 数据 分 析 应 用 提供 了 灵活 的 支持 。 

(4) 流 式 计 算 、 交 互 式 计算 和 批量 计算 的 支持 。 在 Spark 出 现 之 前 ,存在 3 种 计算 模 
式 , 即 以 MapReduce、Hive、Pig 等 为 代表 的 批 处 理 系统 ,以 Storm 为 代表 的 流 式 实时 系统 ， 
以 Impala 为 代表 的 交互 式 计算 .但 是 缺乏 一 种 灵活 的 框架 可 以 同时 进行 这 3 种 计算 。 

Spark 框架 中 同时 实现 了 对 批 处 理 、 交 互 式 计算 和 流 式 处 理 的 支持 ,提供 了 一 个 统一 的 
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数据 处 理 平台 。Spark 使 用 Spark Streaming 来 操纵 实时 数据 ,进行 流 式 计算 。 而 Hadoop 
是 为 批 处 理 而 设计 的 ,MapReduce 系统 典型 地 通过 调度 批量 任务 来 操作 静态 数据 ,适合 于 
离线 计算 。 虽 然 有 研究 对 Hadoop 进行 了 流 式 改 进 , 但 是 基于 MapReduce 进行 流 式 处 理 仍 
具有 很 大 缺陷 。Hadoop 是 基于 HDFS, 对 数据 的 切 分 会 产生 中 间 数 据 文件 ,所 能 达到 的 数 
据 片 段 会 比较 大 。 

(5) 多 语言 的 支持 。Spark 运行 于 Java 虚拟 机 上 ,支持 Java、Scala、R、Clojure 或 是 
Python 快速 编写 应 用 程序 ,这 有 助 于 让 开发 人 员 用 他 们 各 自 所 熟悉 的 编程 语言 来 创建 并 执 
行 应 用 程序 。 特 别 是 使 用 Scala 可 以 像 操 作 本 地 集合 对 象 一 样 容易 地 操作 分 布 式 数据 集 。 

Spark 可 以 运行 在 Hadoop、Mesos、 各 种 云 上 。Spark 可 以 在 Hadoop 2 的 YARN 集群 
管理 器 上 运行 ,从 任何 Hadoop 数据 源 读 取 数据 ,包括 HBase、HDFS、Cassandra、Hive 等 。 
Spark 的 这 一 特性 使 其 适用 于 现 有 的 纯 Hadoop 应 用 程序 的 迁移 。 因 此 ,Spark 推出 来 之 
后 ,有 许多 使 用 Hadoop 的 公司 都 在 纷纷 转向 Spark。 

但 是 ,Spark 也 并 非 要 依赖 于 Hadoop 才能 运行 , 它 也 可 以 独立 运行 。 但 是 由 于 Spark 
本 身 没 有 提供 文件 管理 系统 ,因此 ,就 必须 依靠 其 他 分 布 式 文件 系统 进行 集成 。Hadoop 的 
HDFS 正 是 其 默认 的 一 种 选择 ,当然 也 可 以 选择 其 他 的 基于 云 的 数据 系统 平台 。 因 此 ,从 这 
点 看 ,Spark 和 Hadoop 的 集成 是 目前 大 数据 的 最 合适 的 应 用 模式 。 


8.6.2 Spark 的 生态 圈 


Spark 已 经 建立 了 自己 的 生态 圈 , 如 图 8-11 所 示 。 处 于 底层 是 Spark 的 核心 组 件 ,是 其 
执行 引擎 ,包括 弹性 分 布 数据 集 (Resilient Distributed Dataset, RDD, 这 种 Spark 的 最 基本 
抽象 ) 与 Spark 任务 调度 等 。 在 内 存 中 对 RDD 进行 快速 处 理 是 Spark 的 核心 能 力 。 而 在 此 
基础 上 ,Spark 提供 了 SparkSQL Spark Streaming .MLlib 及 GraphX 等 相关 的 附加 库 。 
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图 8-11 Spark 的 生态 圈 





在 Spark 中 ,RDD 是 一 种 重要 的 数据 结构 ,具有 容错 的 、 并 行 性 的 特点 。 它 的 目的 是 让 
用 户 显 式 地 将 数据 存储 到 磁盘 和 内 存 中 ,并 能 控制 数据 的 分 区 。 

此 外 ,为 了 更 好 地 进行 数据 维护 ,RDD 提供 了 一 组 丰富 的 操作 来 操作 这 些 数据 。 在 这 
些 操 作 中 ,诸如 map .flatMap ,filter 等 转换 操作 实现 了 Monad 模式 ,与 Scala 的 集合 操作 进 
行 较 好 的 配合 。 除 此 之 外 .RDD 还 提供 了 诸如 join、groupBy、reduceByKey 等 更 为 方便 的 
操作 ,以 支持 常见 的 数据 运算 。 

RDD 提供 了 对 多 种 数据 计算 模型 的 支持 ,使 得 Spark 能 够 适合 于 批 处 理 、 流 式 处 理 等 
多 种 大 数据 处 理 场景 。 通 常 来 说 ,针对 数据 处 理 的 常见 计算 模型 有 迭代 式 计算 (Tterative 
Algorithms) .关系 查询 (Relational Queries)、 函数 式 (MapReduce) 、 流 式 计 算 (Stream 
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Processing) 等 。 例 如 , Hadoop MapReduce 采用 了 MapReduces 模型 ,实现 了 批量 处 理 ; 
Storm 则 采用 了 Stream Processing 模型 ,具备 流 式 计算 能 力 ; 而 RDD 混合 了 这 4 种 模型 。 

Spark SQL 主要 用 于 数据 处 理 和 对 Spark 数据 执行 类 SQL 的 查询 。 通 过 Spark SQL， 
可 以 针对 不 同 格 式 和 不 同 来 源 的 数据 执行 ETL 数据 抽取 操作 ,如 可 以 是 JSON、Parquet 或 
关系 型 数据 库 等 ,然后 完成 特定 的 查询 操作 。 

Spark Streaming 可 以 用 于 处 理 实时 数据 流 . 其 处 理 模式 是 基于 微 批 处 理 计算 。 它 使 用 
一 种 本 质 上 是 RDDs 序列 的 DStream 抽象 来 处 理 实时 数据 。 

MLlib 是 Spark 对 常用 的 机 器 学 习 算法 的 库 实现 ,是 一 种 分 布 式 机 器 学 习 架 构 。 
MLlib 目前 支持 4 种 常见 的 机 器 学 习 问题 , 即 二 元 分 类 、 回 归 、 聚 类 及 协同 过 滤 , 同 时 也 包括 
一 个 底层 的 梯度 下 降 优化 基础 算法 。 

GraphX 是 一 个 分 布 式 图 处 理 框 架 , 基 于 Spark 平台 提供 对 图 计算 和 图 挖掘 的 编程 接 
口 , 极 大 地 方便 了 开发 人 员 对 分 布 式 图 处 理 的 需求 。 图 的 分 布 式 处 理 实际 上 是 把 图 拆 分 为 
很 多 子 图 ,再 分 别 对 这 些 子 图 进行 并 行 计算 。 它 可 以 帮助 用 户 以 图 形 的 形式 表现 文本 和 列 
表 数 据 , 找 出 数据 中 的 不 同 关系 。 在 Spark 2. 0 中 , 提供 一 些 典型 图 算法 的 封装 ,包括 
PageRank 算法 ,标签 传播 算法 等 。 

Spark R 是 针对 R 统计 语言 的 程序 包 。R 的 用 户 可 通过 其 在 R 这 (Shell) 中 使 用 Spark 
功能 。 

BlinkDB 是 一 种 大 型 并 行 的 近似 查询 引擎 ,用 于 在 海量 数据 上 执行 交互 式 SQL 查询 。 
允许 用 户 对 海量 数据 执行 类 SQL 查询 ,可 以 通过 牺牲 数据 精度 来 提升 查询 响应 时 间 , 因 此 
在 速度 重要 性 高 于 精确 性 的 情况 下 非常 有 用 。 

Cassandra Connector 可 用 于 访问 存储 在 Cassandra 数据 库 中 的 数据 并 在 这 些 数据 上 执 
行 数据 分 析 。 

从 开发 者 的 角度 来 看 ,Spark 的 组 成 结构 如 图 8-12 所 示 。 该 结构 中 包含 三 部 分 , 即 数 
据 存储 ,管理 框架 和 API。 
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(Scala, Java, Python) 


Compute Interface 












Distributed Computing 
( a (Stand-alone. 
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Mesos, YARN) 


Data Management 


图 8-12 开发 者 视角 的 Spark 组 成 结构 


Spark 用 HDFS 文件 系统 存储 数据 。 它 可 用 于 存储 任何 兼容 于 Hadoop 的 数据 源 , 包 
括 HDFS、HBase、Cassandra 等 。 
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利用 API, 应 用 开发 者 可 以 用 标准 的 API 接口 创建 基于 Spark 的 应 用 。Spark 提供 
Scala、Java 和 Python 等 程序 设计 语言 的 API。 

Spark 既 可 以 部 署 在 一 个 单独 的 服务 器 ,也 可 以 部 署 在 像 Mesos 或 YARN 这 样 的 分 布 
式 计 算 框 架 之 上 ,这 是 开发 环境 的 问题 。 

在 了 解 Spark 的 基本 构成 之 后 , 接 下 来 对 Spark 生态 系统 中 的 主要 部 件 进行 介绍 。 


8.6.3 SparkSQL 


SparkSQL 的 前 身 是 Shark, 但 是 Shark 对 于 Hive 有 太 多 依赖 ,如 采用 Hive 的 语法 解 
析 器 ,查询 优化 器 等 ,因此 就 提出 了 SparkSQL 项 目 。 它 支持 多 种 数据 源 ,不 但 兼容 Hive， 
还 可 以 从 RDD、parquet 文件 JSON 文件 .RDBMS 数据 及 Cassandra 等 NoSQL 数据 库 中 
获取 数据 。 

DataFrame 是 SparkSQL 的 核心 , 它 将 数据 保存 为 行 构成 的 集合 , 行 对 应 列 有 相应 的 列 
名 。DataFrames 构建 在 RDD 之 上 ,是 一 个 分 布 式 结构 , RDD 的 数据 分 片 使 得 DataFrame 
能 够 被 并 行 处 理 。 使 用 DataFrames 可 以 非常 方便 地 查询 数据 、 给 数据 绘图 及 进行 数据 过 
滤 、 列 查询 .计数 、 求 平均 值 及 将 不 同 数 据 源 的 数据 进行 整合 。 

同时 SparkSQL 内 置 了 JDBC 服务 器 ,为 商业 智能 (BD 工具 等 提供 标准 的 JDBC/ODBC 

使 用 SparkSQL 时 ,最 主要 的 两 个 组 件 就 是 DataFrame 和 SQLContext。SQLContext 
封装 了 Spark 中 的 所 有 关系 型 功能 。 主 要 的 过 程 包括 以 下 步骤 。 

(1) 用 已 有 的 Spark Context 对 象 创 建 SQLContext 对 象 。 





val sqlContext = new org. apache. spark. sql. SOLContext(sc) 


(2) 创建 RDD 对 象 ,除了 文本 文件 之 外 ,也 可 以 从 其 他 数据 源 中 加 载 数据 ,如 JSON 数 
据 文件 .Hive 表 , 甚 至 可 以 通过 JDBC 数据 源 加 载 关 系 型 数据 库 表 中 的 数据 。 


val rddCustomers = sc. textFile("data/customers. txt") 

(3) 用 模式 字符 串 生 成 模式 对 象 。 

val schemaString = "customer_id name city state zip_code" 

val schema = StructTYpe ( schemaString. split(" "). map(fieldName = ~ StructField (fieldName, 
StringType, true))) 

(4) 将 RDDCrddCustomers) 记 录 转 化 成 Row。 

val rowRDD = rddCustomers. map(_. split(",")).map(p => Row(p(0).trim, p(1),p(2),p(3), p(4))) 
(5) 将 模式 应 用 于 RDD 对 象 。 


val dfCustomers = sqlContext. createDataFrame( rowRDD, schema) 
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(6) 将 DataFrame 注册 为 表 。 


dfCustomers. registerTempTable("customers") 


(7) 用 sqlContext 对 象 提供 的 sql 方法 执行 SQL 语句 。 


val custNames = sqlContext. sql("SELECT name FROM customers") 


(8) SQL 查询 的 返回 结果 为 DataFrame 对 象 ,支持 所 有 通用 的 RDD 操作 。 可 以 按照 
顺序 访问 结果 行 的 各 个 列 。 


custNames. map(t => "Name: " + t(0) ) .collect(). foreach(println) 


8.6.4 Spark Streaming 


使 用 流 式 数据 处 理 , 一 旦 数据 到 达 计 算 就 会 被 实时 完成 ,而 非 作为 批 处 理 任 务 。 而 
SparkSQL 是 基于 批 处 理 模式 下 处 理 静态 信息 的 。Spark 流 使 得 基于 实时 数据 流 构建 容错 
性 处 理 变 得 更 加 简单 。 常 见 的 流 数 据 例子 有 网 站 上 的 用 户 行为 ,监控 数据 ,服务 器 日 志 与 其 
他 事件 数据 。 

与 普通 的 数据 流 处 理 原理 类 似 ,Spark 流 工 作 处 理 中 ,将 数据 流 按照 预先 定义 的 间隔 
CN 秒 ) 划分 为 若干 个 批 , 称 为 微 批 次 。 然 后 将 每 批 数据 视 为 一 个 弹性 分 布 式 数据 集 
(RDD) ,随后 就 可 以 使 用 RDD 上 的 操作 (如 map、reduce、reduceByKey join 和 window 等 ) 
来 处 理 这 些 RDDs。 这 些 RDD 操作 的 结果 会 以 批 的 形式 返回 。 

因此 ,在 Spark 的 流 式 计 算 中 ,决定 时 间 间 隔 N 是 很 重要 的 。 当 然 可 以 预见 的 是 ,NN 的 
值 与 流 式 处 理 要 求 有 关 。 如 果 N 值 设 定 太 小 ,那么 微 批 次 的 数据 量 就 很 小 ,可 能 没有 包含 
充足 的 数据 模式 ,在 分 析 阶 段 就 难于 给 出 有 意义 的 结果 。 反 之 如 果 N 值 设 定 得 太 大 ,就 可 
能 会 造成 一 定 的 延迟 。 

编写 Spark 的 流 式 处 理 程序 ,首先 需要 了 解 两 个 重要 的 组 件 , 即 DStream 与 
StreamingContext( 流 上 下 文 )。Dstream 即 Discretized Stream, 代表 离散 流 的 意思 ,是 
Spark 流 中 最 基本 的 抽象 , 它 描述 了 一 个 持续 的 数据 流 。DStream 既 可 以 从 Kafka、 Flume 
和 Kinesis 数据 源 中 创建 ,也 可 以 对 其 他 DStream 实施 操作 。 在 Spark 内 部 ,一 个 DStream 
被 描述 为 一 个 RDD 对 象 的 序列 。 

从 数据 操作 角度 来 看 ,DStream 支持 的 操作 与 RDDs 上 的 转换 与 动作 操作 类 似 ,主要 有 
map \flatMap filter .count\reduce ,countByValue reduceByKey ,join, updateStateByKey 等 。 

与 Spark 中 的 SparkContext(Spark 上 下 文 ) 相 似 .StreamingContext( 流 上 下 文 ) 是 所 有 
流 功能 的 主人 口 。 流 上 下 文 拥有 内 置 方法 可 以 将 流 数据 接收 到 Spark 流程 序 中 。 

Spark 的 编程 步骤 如 下 。 

(1) 用 Spark 上 下 文 和 切片 间隔 时 间 这 两 个 参数 初始 化 流 上 下 文 对 象 。 切 片 间 隔 设置 
了 流 中 处 理 输入 数据 的 更 新 窗口 。 一 旦 上 下 文 被 初始 化 ,就 无 法 再 向 已 经 存在 的 上 下 文中 
定义 或 添加 新 的 计算 。 并 且 .在 同一 时 间 只 有 一 个 流 上 下 文 对 象 可 以 被 激活 。 
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JavaStreamingContext jssc = new JavaStreamingContext (conf, Durations. seconds(1));// 间 隔 1 秒 





(2) 通过 创建 输入 DStreams 来 指定 输入 数据 源 。 输 入 数据 源 是 一 个 使 用 了 Apache 
Kafka 分 布 式 数据 库 和 消息 系统 的 日 志 消 息 生成 器 。 


JavaReceiverInputDStream < String> lines = jssc. socketTextStream("localhost", 9999); 
// 从 本 地 计算 指定 端口 的 数据 流 


(3) 定义 DStreams 上 的 计算 : 使 用 map 和 reduce 这 样 的 Spark 流 变换 API 来 完成 流 
计算 逻辑 的 定义 。 


JavaDStream < String> words = lines. flatMap( 
new FlatMapFunction< String, String>() { 
@Override public Iterator< String> call(String x) { 
return Arrays.asList(x. split(" ")). iterator(); 
1 
}); 
JavaPairDStream < String, Integer > pairs= words.mapToPair( 
new PairFunction < String，String，Integer>() { 
@Override public Tuple2 < String, Integer> call(String s) { 
return new Tuple2 <>(s, 1); 
} 
1); 
JavaPairDStream < String, Integer> wordCounts = pairs.reduceByKey( 
new Function2 < Integer, Integer, Integer >() { 
@Override public Integer call( Integer il, Integer i2) { 
return il + i2; 
} 
}); 


(4) 使 用 先前 创建 的 流 上 下 文 对 象 中 的 start 方法 来 开始 接收 并 处 理 数据 。 


jssc. start(); // Start the computation 


(5) 使 用 流 上 下 文 对 象 的 awaitTermination 方法 等 待 流 数据 处 理 完毕 并 停止 它 。 


jssc.awaitTermination(); // Wait for the computation to terminate 


8.6.5 Spark 机 器 学 习 


Spark MLlib 机 器 学 习 库 封装 了 许多 机 器 学 习 算 法 和 模型 ,由 于 大 部 分 的 机 器 学 习 算 
法 都 需要 大 量 的 迭代 运算 ,因此 基于 Spark 平台 的 集群 计算 能 力 及 对 批量 计算 、 数 据 流 计算 
模式 的 支持 ,MLlib 机 器 学 习 库 在 大 数据 分 析 挖 气 上 就 更 具有 可 扩展 和 易 使 用 性 。 

Spark MLlib 有 两 个 包 , 分 别 是 spark. mllib 和 spark. ml。 前 者 提供 了 面向 RDD 的 
API, 后 者 提供 了 面向 DataFrame 的 API。 在 之 前 的 版 本 中 spark. mllib 是 MLlib 的 主要 
ZPI, 但 是 在 最 新 Spark2. 0 中 ,spark. ml 是 MLlib 的 主要 API, 而 面向 RDD 的 MLlib 包 已 
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经 进入 维护 状态 。 这 是 因为 DataFrame 提供 了 比 RDD 更 友好 的 API, 并 且 在 数据 源 、 查 
询 、 优 化 等 方面 具有 优势 。 因 此 .在 实际 使 用 中 推荐 spark. ml, 建 立 在 DataFrames 基础 上 
的 ml 中 一 系列 算法 更 适合 创建 包含 从 数据 清洗 到 特征 工程 再 到 模型 训练 等 一 系列 工作 的 
ML Pipeline。 

总 体 而 言 ,MLlib 机 器 学 习 库 提供 了 机 器 学 习 算 法 类 ,特征 处 理 类 、 管 道 (Pipelines) 、 持 
久 化 (Persistence) 及 一 些 实用 程序 (Utilities) 。 

MLlib 所 提供 的 机 器 学 习 算 法 类 包括 相关 性 、 分 类 和 回归 ,协同 过 滤 、 聚 类 等 子 类 ,每 个 
类 别 所 提供 的 具体 算法 如 下 。 

(1) 分 类 算法 : 逻辑 回归 、 朴 素 贝 叶 斯 .决策 树 分 类 器 ,随机 森林 分 类 器 、 梯 度 提 升 树 
GBT 多 层 感 知 器 分 类 器 .一 对 多 分 类 器 (One-vs-Rest) 。 

(2) 回归 算法 : 线性 回归 ,广义 线性 回归 、 决 策 树 回归 、 随 机 森林 回归 、GBT 回归 、 
Survival regression 、 保 序 回归 。 

(3) 聚 类 ，K-means、 二 分 K-means、 高 斯 混合 模型 (GMM) 聚 类 、Latent Dirichlet 
allocation (LDA) 。 

(4) 协同 过 滤 算 法 : 交替 最 小 二 乘法 ALS。 

特征 处 理 类 所 提出 的 API 也 比较 多 ,大 概 可 以 分 成 3 个 子 类 , 即 特 征 提取 类 、 特 征 选择 
类 和 特征 变换 类 。 这 3 个 子 类 具体 包含 的 算法 如 下 。 

(1) 特征 提取 类 ,包含 TF-IDF、Word2Vec 和 CountVectorizer。 

(2) 特征 选择 类 ,包含 卡 方 选 择 、RFormula、VectorSlicer。 

(3) 特征 变换 类 ,用 于 对 特征 进行 缩放 、 转 换 , 修 改 等 ,具体 的 算法 有 StopWords 
Remover、N-gram、PCA、DCT. 归 一 化 ,最 大 最 小 化 .QuantileDiscretizer 等 。 

Spark 中 的 管道 提供 了 开发 者 一 种 设计 流水 线 式 工作 流程 的 途径 ,类 似 于 软件 体系 架 
构 中 的 管道 模型 。 有 了 这 种 机 制 ,开发 者 就 可 以 将 机 器 学 习 开发 过 程 中 所 需要 的 数据 加 载 、 
特征 处 理 , 分 类 器 训练 及 分 类 等 过 程 以 一 种 工作 流 的 方式 连接 起 来 ,这 样 做 的 好 处 是 可 以 很 
方便 地 替换 算法 。 例 如 ,在 Spark MLlib 中 提供 了 很 多 分 类 器 .但 是 针对 某 个 实际 问题 , 通 
常 难 于 知道 哪 种 分 类 器 能 得 到 更 好 的 性 能 ,在 这 种 场景 下 ,就 可 以 利用 这 种 Pipeline 机 制 ， 
在 不 改变 整体 流程 的 前 提 下 ,替换 各 种 分 类 算法 ,从 而 得 到 最 好 的 效果 。 

为 了 实现 Pipeline.Spark MLlib 中 定义 了 其 结构 组 成 。Pipeline 是 一 种 工作 流 模 型 ,其 
中 的 基本 组 件 包 括 Transformer 和 Estimator 两 种 。 

Transformer 将 数据 转换 为 男 一 种 形式 (如 修改 格式 或 插入 新 的 数据 列 等 ), 它 是 一 种 
特征 变换 和 训练 好 的 模型 的 抽象 化 。 对 于 前 者 来 说 ,这 种 变换 器 可 以 从 一 个 DataFrame 作 
为 输入 , 读 取 其 中 的 数据 并 进行 特征 处 理 , 将 结果 输出 到 一 个 新 的 DataFrame 中 。 而 对 于 
后 者 来 说 ,这 种 变换 器 可 以 完成 分 类 标签 的 标注 过 程 .这 个 过 程 是 在 训练 好 的 模型 的 帮助 下 
进行 的 。 

Estimator 可 以 看 作 是 一 种 算法 的 抽象 化 :这 种 算法 可 以 对 DataFrame 中 的 数据 进行 
拟 合 而 产生 Transformer。 例 如 ,SVM 的 学 习 算法 就 是 这 种 Estimator, 它 对 DataFrame 中 
的 数据 进行 学 习 , 最 终 产生 一 个 SVM 分 类 器 。 从 开发 角度 来 看 ,这 种 Estimator 的 拟 合 过 
程 是 通过 实现 Estimator 的 fit() 方 法 来 完成 的 。 

在 结构 上 ,一 个 Pipeline 包含 一 个 或 多 个 PipelineStage 所 组 成 的 有 序 序列 。 每 一 个 
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Stage 完成 一 个 任务 ,如 数据 集 处 理 转 化 .模型 训练 .参数 设置 或 数据 预测 等 。 而 每 个 Stage 
中 的 组 件 就 是 Transformer 或 Estimator。 在 这 个 有 序 序列 中 ,每 个 Stage 是 按 顺 序 执行 
的 。 图 8-13 所 示 的 是 一 个 对 输入 文本 集 进行 学 习 构 建 逻辑 回归 模型 的 Pipeline, 其 中 的 
Tokenizer 是 完成 类 似 词汇 切 分 的 任务 ,HashingTF 是 对 切 分 结果 构建 一 个 特征 向 量 ,而 
Logistic Regression 则 是 执行 模型 训练 ,其 最 终 产 生 一 个 逻辑 回归 模型 。 
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图 8-13 ”Pipeline 示例 


当然 ,这 只 是 一 个 简单 的 示例 ,而 实际 上 Pipeline 所 组 成 的 有 序 序列 不 一 定 是 线性 的 。 
在 这 种 情况 下 ,工作 流 所 构成 的 是 一 种 有 向 无 环 图 (DAG) , 称 为 非 线性 的 Pipeline。 

在 程序 实现 层面 ,这 种 Pipeline 的 形式 如 下 。 

/* 将 特征 转换 、 特 征 聚 合 、 模 型 等 组 成 一 个 管道 ,并 调用 它 的 fit 方 法 拟 合 出 模型 * / 

PipelineStage [ ] pipelineStage = { catlIndex, cat2Index, catlEncoder, cat2Encoder, 

vectorAssembler, logModel}; 


Pipeline pipline = new Pipeline( ). setStages(pipelineStage); 
PipelineModel pModle = pipline. fit(dfTrain); 


综 上 所 述 ,MLlib 具有 以 下 特点 。 

(1) 容易 使 用 : 可 以 使 用 任何 的 Hadoop 数据 源 ,包括 HDFS、HBase 或 本 地 文件 ,可 用 
语言 包括 Java、Scala、Python 和 R。 

(2) 高 性 能 实现 比 MapReduce 快 100 信 。 

(3) 容易 部 署 :可 以 直接 在 Hadoop2 集群 运行 ,也 可 以 单独 运行 ,或 者 运行 于 EC2、 
Mesos。 


Spark 的 应 用 场景 如 表 8-3 所 示 。 
表 8-3 Spark 的 应 用 场景 

















使 用 场景 时 间 跨 度 成 熟 的 框架 使 用 Spark 
复杂 的 批量 数据 处 理 小 时 级 MapReduce( Hive) | Spark 
基于 历史 数据 的 交互 式 查 询 分 钟 级 、 秒 级 Impala Spark SQL 
基于 实时 数据 流 的 数据 处 理 秒 级 Storm Spark Streaming 
基于 历史 数据 的 数据 挖掘 = Mahout Spark MLlib 
基于 增 量 数据 的 机 器 学 习 三 二 Spark Streaming+ MLlib 














MLlib 支持 存储 在 一 台 计 算 机 上 的 本 地 向 量 或 矩阵 ,也 支持 存储 在 一 个 或 多 个 RDD 上 
的 分 布 式 和 矩阵 数 据 。 它 支持 两 种 类 型 的 本 地 向 量 , 即 稀疏 和 密集 ,如 对 于 (1.0, 0.0, 3.0) 
这 个 向 量 , 它 的 两 种 表示 方式 分 别 如 下 。 


(1) 密集 表示 形式 : [1.0, 0.0, 3.0]。 
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(2) 稀 朴 表示 形式 : (3, [0, 2], [1.0, 3. 0]) ,其 中 3 表示 向 量 的 个 数 ,[0, 2]、[1.0， 
3.0] 则 分 别 表示 下 标 和 对 应 的 值 。 


8.7 阿里 云 大 数据 平台 


阿里 云 大 数据 平台 ( 数 加 平台 ,https://data. aliyun. comy/) 构 建 在 阿里 云云 计算 基础 设 
施 之 上 ,为 用 户 提供 了 大 数据 存储 、 计 算 能 力 、 大 数据 分 析 挖 掘 及 输出 展示 等 服务 ,使 用 数 
加 ,用 户 可 以 容易 地 实现 商业 智能 、 人 工 智 能 服务 ,具备 一 站 式 数据 应 用 能 力 。 


8.7.1 飞天 系统 


阿里 云 计算 基础 设施 由 飞天 系统 保障 ,飞天 系统 是 由 阿里 云 开发 的 一 个 大 规模 分 布 式 
计算 系统 ,其 中 包括 飞天 内 核 和 飞天 开放 服务 。 飞 天 内 核 负 责 管理 数据 中 心 Linux 集群 的 
物理 资源 .控制 分 布 式 程序 运行 隐藏 下 层 故 障 恢复 和 数据 宛 余 等 细节 ,有 效 提 供 弹性 计算 
和 负载 均衡 。 如 图 8-14 所 示 ,飞天 体系 架构 主要 包含 四 大 模块 。 一 是 资源 管理 .安全 管理 、 
远程 过 程 调用 等 构建 分 布 式 系统 常用 的 底层 服务 ; 二 是 分 布 式 文件 系统 ; 三 是 任务 调度 ; 




































































四 是 集群 部 署 和 监控 。 
各 种 去 服务 
弥 性 计算 | | 关系 吕 区 | | 开放 存储 | | 人 | | 开放 数据 处 理 
| Eees| | eps | msoss| | ors | | mop 
1 分 布 式 文件 系统 任务 调度 
| a | el | 资源 管理 
Linux 集 群 系统 











图 8-14 飞天 系统 架构 


飞天 开放 服务 为 用 户 应 用 程序 提供 了 计算 和 存储 两 方面 的 接口 和 服务 ,包括 弹性 计算 
服务 (Elastic Compute Service,ECS) .开放 存储 服务 (Open Storage Service,.OSS) .开放 结 
构 化 数据 服务 (TableStore ,原名 Open Table Service.OTS) .关系 型 数据 库 服务 (Relational 
Database Service,RDS) 和 开放 数据 处 理 服务 (Open Data Processing Service,ODPS) , 作为 
第 三 方 应 用 开发 和 Web 应 用 运行 和 托管 的 平台 。 

类 似 于 Hadoop 分 布 式 系统 架构 中 的 HDFS. 在 飞天 架构 中 的 分 布 式 文件 系统 对 于 大 
数据 存储 处 理 而 言 ,是 一 个 关键 的 基础 部 件 。 在 飞天 系统 中 ,该 分 布 式 文件 系统 也 称 为 盘古 
(Pangu) 系 统 。 它 提供 一 个 大 规模 ,高 可 靠 .高 可 用 ,高 吞吐 量 和 可 扩展 的 数据 存储 服务 ,将 
集群 中 各 个 节点 的 存储 能 力 聚 集 起 来 .管理 集群 的 所 有 硬盘 ,自动 屏蔽 软 硬 件 故障 ,为 用 户 
提供 不 间断 的 数据 访问 服务 ; 支持 增 量 扩容 和 数据 的 自动 平衡 ,提供 类 似 于 POSIX 的 用 户 
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空间 文件 访问 API., 支 持 随 机 读 写 和 追加 写 的 操作 ; 合理 地 安排 数据 存放 位 置 以 兼顾 性 能 
和 数据 的 安全 性 。 

在 盘古 系统 中 ,文件 系统 的 元 数据 存储 在 多 个 主 服务 器 (Master) 上 ,文件 内 容 存储 在 大 
量 的 块 服务 器 (Chunk Server) 上。 基于 这 种 设计 ,盘古 系统 能 够 支持 数 十 PB 量 级 的 存储 
大 小 ,总 文件 数量 达到 亿 量 级 。 同 时 针对 OSS、OTS 要 求 低 时 延 数据 读 写 ,ECS 在 要 求 低 时 
延 的 同时 还 需要 具备 随机 写 的 能 力 等 需求 ,盘古 系统 实现 了 事务 日 志文 件 和 随机 访问 文件 ， 
用 于 支持 在 线 应 用 。 

在 任务 调度 与 协调 管理 方面 , 则 是 由 阿里 的 伏 义 来 完成 的 。 它 主要 负责 管理 集群 及 其 
资源 和 调度 并 发 的 计算 任务 ,为 上 层 应 用 提供 服务 ,支持 离线 数据 处 理 DAG 作业 和 在 线 服 
务 。 在 设计 上 采用 Master/Slave 架构 ,包括 伏 义 Master 的 控制 中 心 和 运行 伏 义 Agent 守 
护 进 程 的 其 他 服务 器 ,Agent 管理 节点 上 的 运行 任务 ,并 负责 收集 资源 使 用 情况 ,并 上 报 控 
制 中 心 。 支 持 多 任务 并 发 调度 , Master 负责 多 任务 之 间 的 仲裁 .支持 优先 级 .资源 配额 和 


抢占 。 
3.7:2 


大 数据 集成 平台 


阿里 云 大 数据 平台 就 是 基于 飞天 系统 的 一 种 重要 应 用 。 图 8-15 所 示 的 是 阿里 云 大 数 


据 平台 体系 结构 ,该 平台 基于 阿里 云 计算 平台 。 提 供 了 数据 集成 .计算 与 存储 ,数据 挖掘 模 
型 与 算法 ,以 及 具体 应 用 领域 的 相关 技术 。 





应 用 领域 
技术 














数据 挖掘 
模型 与 算法 














计算 与 
存储 层 








云 计 算 基 
础 设施 





























大 数据 可 | | 定制 化 应 用 智能 识别 应 用 
mp 推荐 引擎。 | | (图 像 识别 、 人 脸 识别 | | 行业 解决 方案 
公众 趋势 分 析 OCRS) 








第 三 方 API 














机 器 学 习 图 计算 数据 开发 








分 布 式 计 算 引 擎 (大 数据 计算 服务 ) 
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图 8-15 阿里 云 大 数据 平台 体系 结构 


1. 主要 数据 处 理 功 能 
在 数据 集成 能 力 方面 ,允许 从 本 地 数据 库 、 本 地 文件 .Hadoop 中 的 数据 通过 公 网 环境 
或 非 公 网 环境 实现 与 ODPS 的 数据 同步 。 同 时 ,也 允许 直接 将 云 环 境 数据 库 ( 如 RDS、 
OSS、OTS、ADS、DRDS 等 )` 云 环境 文件 数据 同步 到 ODPS。 集 成 的 数据 源 赛 括 了 各 种 可 
能 的 数据 源 形态 ,对 大 数据 集成 提供 了 有 力 的 支持 。 
在 数据 计算 存储 方面 ,提供 了 批量 结构 化 数据 的 存储 和 计算 ,可 以 提供 海量 数据 仓库 的 
解决 方案 及 针对 大 数据 的 分 析 建 模 服 务 。 提 供 了 分 布 式 数据 处 理 模 型 MapReduce, 并 为 用 
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户 提 供 Java 编程 接口 。 有 别 于 传统 的 MapReduce, 阿 里 云 大 数据 平台 在 计算 方面 提供 了 扩 
展 的 MapReduce 模型 ,可 以 支持 Map 后 连接 任意 多 个 Reduce 操作 ,如 Map-Reduce- 
Reduce。 此 外 ,与 其 他 大 数据 技术 平台 类 似 ,阿里 云 大 数据 平台 也 具备 分 布 式 数据 流 式 计 
算 能 力 StreamSQL .该 功能 底层 采用 先进 的 分 布 式 增 量 计算 框架 ,可 以 实现 秒 级 别 的 低 延 
迟 响应 ,以 SQL 的 形式 提供 流 式 计算 服务 ,并 且 完 全 屏蔽 了 流 式 计算 中 复杂 的 故障 恢复 等 
技术 细节 , 极 大 地 提高 了 开发 效率 。 

在 数据 挖掘 模型 与 算法 方面 ,在 阿里 云 MaxCompute 计算 平台 之 上 ,提供 了 集 数据 处 
理 , 建 模 、 离 线 预 测 \ 在 线 预测 为 一 体 的 机 器 学 习 平 台 。 该 平台 为 算法 开发 者 提供 了 丰富 的 
MPI、PS、BSP 等 编程 框架 和 数据 存 取 接口 ,同时 为 算法 使 用 者 提供 了 基于 Web 的 IDE 十 可 
视 化 实验 搭建 控制 台 。 其 主要 特点 是 支持 处 理 亿 万 级 大 规模 数据 ,无 须 编码 ,简单 地 拖 忠 即 
可 完成 数据 挖掘 、 数 据 分析 等 功能 。 阿 里 云 机 器 学 习 主 要 应 用 在 数据 挖掘 场景 下 , 即 从 大 量 
的 数据 中 通过 算法 搜索 隐藏 于 其 中 信息 。 其 场景 主要 有 以 下 几 种 。 

(1) 分 类 。 分 类 可 以 找 出 这 些 不 同 种 类 客户 之 间 的 特征 ,让 用 户 了 解 不 同行 为 类 别 客 
户 的 分 布 特征 ,从 而 进行 商业 决策 和 业务 活动 。 例 如 ,在 银行 行业 ,可 以 通过 阿里 云 机 器 学 
习 对 客户 进行 分 类 ,以 便 进行 风险 评估 和 防 控 ; 在 销售 领域 ,可 以 通过 对 客户 的 细 分 ,进行 
潜 客 挖掘 、 客 户 提 升 和 交叉 销售 客户 挽留 等 。 

(2) 聚 类 。 通 常 “ 人 以 群 分 , 物 以 类 聚 ”, 通 过 对 数据 对 象 划分 为 若干 类 ,同一 类 的 对 象 
有 具 有 较 高 的 相似 度 , 不 同类 的 对 象 相似 度 较 低 ,以 便 度量 对 象 间 的 相似 性 ,发 现 相关 性 。 例 
如 ,在 安全 领域 ,通过 异常 点 的 检测 ,可 以 发 现 异常 的 安全 行为 。 通 过 人 与 人 之 间 的 相似 性 ， 
实现 团伙 犯罪 的 发 掘 。 

(3) 预测 。 通 过 对 历史 事件 的 学 习 来 积累 经 验 , 得 出 事物 间 的 相似 性 和 关联 性 ,从 而 对 
事物 的 未 来 状况 做 出 预测 ,如 预测 销售 收入 和 利润 .预测 用 户 下 一 个 阶段 的 消费 行为 等 。 

(4) 关联 。 分 析 各 个 物品 或 商品 之 间 同 时 出 现 的 概率 ,典型 的 场景 如 购物 篮 分 析 。 例 
如 ,在 超市 购物 时 ,顾客 购买 记录 常常 隐 含 着 很 多 关联 规则 ,如 购买 圆珠笔 的 顾客 中 有 65 % 
也 购买 了 笔记 本 ,利用 这 些 规则 ,商场 人 员 可 以 很 好 地 规划 商品 摆 放 。 在 电 商 网 站 中 ,利用 
关联 规则 可 以 发 现 哪 些 用 户 更 喜欢 哪 类 的 商品 , 当 发 现 有 类 似 的 客户 的 时 候 ,可 以 将 其 他 客 
户 购买 的 商品 推荐 给 相 类 似 的 客户 ,以 提高 网 站 的 收入 。 

从 图 8-15 中 可 以 看 出 阿里 云 也 提供 了 大 数据 可 视 化 工具 , 即 DataV。 它 提供 了 以 下 的 
一 些 具体 功能 和 特点 。 

(1) 可 视 化 场景 模板 。DataV ,提供 运营 动态 直播 .数据 综合 展示 ,设备 监控 预警 等 多 
种 场景 模板 , 稍 加 修改 就 能 够 直接 服务 于 用 户 的 可 视 化 需求 。 

(2) 拖 忠 式 界面 布局 。 通 过 拖 忠 即 可 实现 灵活 的 可 视 化 布局 ,在 模板 的 基础 上 任何 人 
都 能 够 发 挥 创 意 ,实现 用 户 自己 的 可 视 化 应 用 。 

(3) 多 数据 源 整 合 。DataV 支持 阿里 云 分 析 数 据 库 、 关 系 型 数据 库 、Restful API、CSV、 
静态 JSON 等 多 种 数据 来 源 , 且 能 够 动态 轮 询 。 能 够 实现 多 个 数据 源 汇 聚 于 一 个 可 视 化 界 
面 中 。 

(4) 动态 地 理 绘制 。 该 功能 以 WebGL 技术 作为 支撑 ,能 够 绘制 海量 数据 下 的 地 理 轨 
迹 ` 飞 线 、 热 力 . 区 块 .3D 地 图 /地 球 . 支 持 多 层 码 加 。 

(5) 应 用 在 线 分 享 。 创 建 的 可 视 化 应 用 能 够 发 布 分 享 , 能 够 通过 URL 参数 控制 数据 变 
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量 , 让 不 同 的 用 户 看 到 不 同 的 数据 页 面 。 

(6) 本 地 部 署 支持 。 在 成 为 阿里 云 的 合作 伙伴 之 后 ,能 够 将 配置 好 的 应 用 进行 本 地 化 
部 署 (需要 安装 DataV Server) ,便于 互联 网 连接 受 限 的 场景 使 用 。 

2. 上 -MapReduce 


集群 系统 是 大 数据 分 布 式 计 算 的 基础 ,用 户 需 要 采购 各 种 计算 机 、 安 装配 置 各 种 系统 软 
件 来 进行 集群 的 构建 ,并 对 集群 系统 进行 运行 期 的 维护 ,其 工作 量 和 复杂 度 都 会 比较 高 。 而 
基于 云 环境 的 集群 构建 就 可 以 省 去 这 些 工作 ,只 关心 自己 应 用 程序 的 处 理 逻 辑 即 可 。 
阿里 云 平台 上 就 提供 了 E-MapReduce (Elastic MapReduce) , 它 是 运行 在 阿里 云 平台 
上 的 一 种 大 数据 处 理 的 系统 解决 方案 。E-MapReduce 构建 于 阿里 云 服务 器 ECS 上 ,一 个 
E-MapReduce 集群 由 一 个 或 多 个 阿里 云 ECS instance 构成 。 由 于 E-MapReduce 同时 提供 
了 对 Hadoop、Spark 及 其 他 大 数据 计算 平台 的 支持 ,因此 在 这 种 集群 服务 中 ,用 户 可 以 方便 
地 使 用 Hadoop 和 Spark 生态 系统 中 的 其 他 周边 系统 ,如 8.5 节 和 8. 6 节 中 提 到 的 Apache 
Hive、Apache Pig、HBase 等 ,来 分 析 和 处 理 自己 的 数据 。 因此 ,可 以 认为 一 个 记 
MapReduce 集群 就 是 由 一 个 或 多 个 阿里 云 ECS instance 组 成 的 Hadoop 和 Spark 集群 ,其 架 
构 如 图 8-16 所 示 , 目 前 支持 的 一 些 分 布 式 相关 软件 系统 包括 Hadoop2. 7. 2、Ganglia3. 7. 2、 
Sparkl1. 6. 1、 Hive2. 0. 0 Pig0. 14. 0、 Sqoopl. 4. 6, Hue3. 9. 0、Zeppelin0. 5. 6, Phoenix4. 7. 0、 
ZooKeeper3. 4.6 .HBasel. 1. 1 .Presto0. 147 .Storml. 0. 1 .Oozie4. 2. 0 等 。 


Web GUI/API&SDK 














hx 
HDFS Tachyon 


E-MapReduce Agent Layer 





ECS 
图 8-16 ”FE-MapReduce 的 架构 


从 用 户 的 角度 来 看 ,E-MapReduce 集群 适合 于 多 种 应 用 场景 。Hadoop 生态 系统 和 
Spark 生态 系统 能 够 支持 的 应 用 场景 .E-MapReduce 都 可 以 支持 。 并 且 用 户 完全 可 以 不 关 
心 其 下 使 用 的 主机 是 阿里 云 的 ECS 主机 ,将 其 视 为 自己 专属 的 物理 主机 即 可 。 典 型 的 E- 
MapReduce 使 用 场景 如 进行 批量 数据 处 理 , 用 户 将 数据 传输 到 OSS 服务 ,每 天 定时 启动 集 
群 ,利用 MapReduce、Hive、Pig、Spark 处 理 离线 数据 ,而 在 这 个 处 理 过 程 中 ,可 以 使 用 OSS 
服务 作为 E-MapReduce 的 输入 /输出 。 

使 用 E-MapReduce 的 方法 .包含 3 个 步骤 , 即 创建 集群 .创建 作业 、 创 建 执行 计划 。 

在 创建 集群 时 ,主要 是 进行 软 硬 件 配置 。 从 上 述 分 布 式 相关 软件 中 选择 所 需要 的 软件 ; 
配置 集群 节点 的 设备 组 成 ,集群 最 少 需要 3 个 节点 (一 个 master, 二 个 core) ,对 每 个 节点 的 
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CPU ,硬盘 类 型 .数据 盘 容 量 和 master 实例 个 数 进行 设置 。 

在 创建 作业 时 ,指定 作业 的 参数 并 选择 作业 类 型 。 目 前 E-MapReduce 支持 的 作业 类 型 
有 Spark、Hadoop .Hive、Pig、Sqoop、Spark SQL .Shell(bash) 。 

在 应 用 开发 方面 ,E-MapReduce 提供 了 相应 的 SDK,SDK 中 包含 了 emr-core 包 和 
emr-sdk_2. 10 包 。 前 者 实现 Hadoop/Spark 与 OSS 数据 源 的 交互 ,默认 已 经 存在 集群 的 运 
行 环境 中 。 后 者 则 实现 了 Spark 与 阿里 云 其 他 数据 源 的 交互 ,如 Log Service.MNS、ONS 
和 ODPS 等 。 同 时 也 提供 了 对 上 述 3 个 步骤 的 API 支持 ,包括 集群 操作 接口 .作业 操 作 接 
口 和 执行 计划 操作 接口 ,如 使 用 CreateCluster 创建 集群 ,使 用 CreateJob 创建 作业 ,使 用 
CreateExecutionPlan 创建 执行 计划 ,使 用 RunExecutionPlan 运行 执行 计划 。 

在 E-MapReduce 中 编写 MapReduce 应 用 程序 的 方法 与 Hadoop 基本 类 似 ,也 需要 自 
行 实现 map 函数 和 reduce 函数 ,同时 需要 在 原来 Hadoop 上 的 Java 程序 中 添加 Access 
Key ID 和 Access Key Secret 的 配置 ,以 便 作 业 有 权限 访问 OSS 等 输入 文件 。 而 对 于 
Spark 上 的 应 用 ,也 与 一 般 的 Spark 应 用 程序 的 写法 一 样 , 如 需要 创建 SparkContext 对 象 
等 ,采用 Scala 语言 会 很 方便 。 

3. 开发 套件 

从 功能 上 看 ,阿里 云 数 加 平台 由 开发 套件 .解决 方案 和 数据 市 场 三 大 部 分 组 成 。 

开发 套件 提供 了 数据 开发 套件 和 应 用 开发 套件 两 大 类 ,它们 的 简要 介绍 如 下 。 

(1) 数据 开发 套件 ,包括 以 下 三 类 。 

@ 大 数据 开发 : 基于 一 个 集成 可 视 化 开发 环境 ,可 实现 数据 开发 .调度 .部 署 . 运 维 ,以 
及 数 仓 设计 、 数 据 质量 管理 等 功能 。 

@ BI 报表 工具 ,用 于 海量 数据 的 实时 在 线 分析 , 具 有 丰富 的 可 视 化 效果 ,可 以 轻松 地 
完成 数据 分 析 、 业 务 探查 等 ,所 见 即 所 得 。 

@ 机 器 学 习 工 具 , 这 些 工具 覆盖 了 机 器 学 习 的 大 部 分 过 程 ,如 数据 处 理 , 特 征 工程 , 建 
模 、 离 线 预测 等 ,并 且 这 些 工具 实现 了 很 好 的 集成 ,是 一 个 一 体 化 的 机 器 学 习 平 台 。 

(2) 应 用 开发 套件 ,包括 以 下 两 类 。 

QO@ 面向 通用 数据 应 用 场景 : 提供 数据 应 用 开发 的 基础 级 工具 ,加 速 基础 数据 服务 开发 
如 个 性 化 推荐 工具 ,数据 可 视 化 工具 ,快速 BI 站 点 搭建 工具 、 规 则 引擎 工具 等 。 

@ 面向 行业 垂直 应 用 场景 : 提供 行业 相关 性 很 高 ,适合 特定 场景 的 数据 工具 ,如 面向 
政府 县 级 区 域 经 济 的 可 视 化 套件 。 

在 解决 方案 方面 , 数 加 针对 不 同 的 业务 场景 ,基于 平台 提供 的 开发 套件 与 行业 服务 商 的 
能 力 , 将 多 方 产品 串联 ,提供 行业 解决 方案 .如 敏捷 BI 解决 方案 .交通 预测 解决 方案 .智能 问 
答 机 器 人 等 ,一 方面 客户 可 以 自行 参考 解决 方案 ,以 自助 的 方式 完成 解决 方案 的 实施 ; 另 一 
方面 ,客户 也 可 以 咨询 行业 服务 商 或 阿里 云 大 数据 平台 官方 ,根据 客户 场景 ,提供 定制 化 的 
端 到 端的 解决 方案 实施 。 

在 数据 市 场 方面 .阿里 云 联合 合作 伙伴 、ISV 等 来 为 用 户 提供 更 多 更 好 的 数据 应 用 、 数 
据 API, 丰 富 大 数据 应 用 ,打造 大 数据 生态 。 目 前 在 数据 市 场 上 有 许多 数据 API, 其 功能 涵 
盖 了 众多 方面 ,包括 金融 理财 .电子 商务 .生活 服务 .交通 地 理 、 气 象 水利 . 企 业 管 理 ` 公 共事 
务 和 人 工 智 能 ,具体 的 有 天 气 数据 查询 .车 辆 违章 查询 .快递 数据 查询 等 。 
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4. 优势 与 特色 

相 比 于 前 面 提 到 的 各 种 大 数据 技术 平台 ,阿里 云 大 数据 平台 具有 独 有 的 优势 和 特色 , 主 
要 表现 在 以 下 3 个 方面 。 

(1) 一 站 式 大 数据 解决 方案 。 该 平台 提供 了 一 站 式 集成 开发 环境 ,从 数据 导入 、 查 找 、 
开发 .ETL 调度、 部 署 、 建 模 、 质 量 、 血 缘 ,到 服务 开发 ,发 布 .应 用 托管 ,以 及 外 部 数据 交换 
的 完整 大 数据 链 路 。 用 户 可 以 方便 地 在 该 平台 上 进行 数据 开发 应 用 ,降低 数据 创新 与 创业 
成 本 。 

(2) 大 数据 与 云 计算 的 无 颖 结合 。 云 计算 和 大 数据 都 是 当今 时 代 的 技术 发 展 前 沿 , 两 
者 相 结合 将 会 使 得 各 自 的 优势 得 到 大 幅 提升 。 云 计算 可 以 提供 强大 的 计算 能 力 使 大 数据 的 
价值 被 充分 地 挖掘 ,而 大 数据 则 可 以 为 用 户 带 来 新 的 业务 机 会 。 因 此 ,未 来 云 计算 和 大 数据 
进行 有 效 的 结合 是 趋势 所 向 。 阿 里 云 数 加 平台 构建 在 阿里 云云 计算 基础 设施 之 上 ,使 用 大 
数据 开发 及 应 用 套件 能 够 流畅 对 接 ODPS 等 计算 引擎 ,支持 ECS、RDS、OCS、ADS 等 云 设 
施 下 的 数据 同步 与 应 用 开发 。 

(3) 企业 级 数据 安全 控制 。 在 云 计算 与 大 数据 的 结合 上 ,数据 的 安全 控制 是 用 户 最 为 
关心 的 问题 之 一 。 阿 里 云 数 加 平台 建立 在 安全 性 在 业界 领先 的 阿里 云 上 ,并 集成 了 最 新 的 
阿里 云 大 数据 产品 。 在 多 租户 的 数据 合作 业务 场景 下 ,大 数据 平台 采用 了 先进 的 “可 用 不 可 
见 "的 数据 合作 方式 ,并 对 数据 所 有 者 提供 全 方位 的 数据 安全 服务 ,数据 安全 体系 包括 数据 
业务 安全 ,数据 产 品 安全 ,底层 数据 安全 、 云 平台 安全 、 接 入 和 网 络 安全 、 运 维 管理 安全 。 


思考 题 


. 大 数据 技术 平台 有 哪些 ? 选择 大 数据 平台 应 当 考 虑 哪些 因素 ? 

. 云 数 据 库 有 什么 特色 ? 

. 大 数据 可 视 化 技术 有 哪些 ? 

介绍 Hadoop 的 技术 生态 圈 的 构成 。 

.介绍 Spark 的 技术 生态 圈 的 构成 ,分 析 它 与 Hadoop 的 区 别 。 

. 了解 阿里 云 大 数据 平台 的 技术 体系 和 功能 ,分 析 它 与 Hadoop、Spark 平台 的 异同 。 








Da- 








这 部 分 针对 互联 网 大 数据 的 典型 应 用 , 即 一 个 个 性 化 新 闻 推 荐 的 应 
用 场景 。 结 合 该 应 用 的 主要 需求 ,介绍 使 用 前 述 的 一 些 基本 算法 、 模 型 
和 分 析 技 术 来 解决 这 些 需求 的 方法 。 以 阿里 云 大 数据 平台 介绍 基于 该 
平台 的 开发 过 程 ,着 重 描述 了 各 种 结构 化 与 非 结构 化 数据 存储 方法 、 机 
器 学 习 服 务 的 使 用 方法 及 结果 展示 方法 等 。 


千 第 9 意 
\ 基于 阿里 云 大 数据 技术 的 
个 性 化 新 闻 推荐 





个 性 化 新 闻 推荐 是 互联 网 应 用 的 一 个 典型 案例 ,其 主要 目的 在 于 自动 获取 各 种 新 闻 网 
站 上 的 Web 页 面 ,并 根据 新 闻 内 容 将 这 些 页 面 推荐 给 对 某 些 类 别 感 兴趣 的 用 户 。 在 这 个 系 
统 中 ,所 涉及 的 技术 主要 有 网 络 疏 虫 技术 .Web 页 面 内 容 提 取 、 文 本 内 容 处 理 、. 新 闻 分 类 器 
的 构建 、 预 测 分 类 方法 。 除 此 以 外 ,将 利用 阿里 云 大 数据 平台 的 存储 能 力 、 云 服务 器 构建 和 
实现 整个 原型 系统 。 


9.1 目的 与 任务 


构建 该 新 闻 推 荐 系统 的 目的 是 为 了 将 本 书 介绍 的 一 些 主要 技术 在 一 个 系统 中 集成 起 
来 ,实现 新 闻 个 性 化 推荐 的 一 些 主要 功能 需求 。 同 时 结合 阿里 云 大 数据 平台 进行 必要 的 开 
发 和 部 署 ,将 理论 与 实践 进行 有 效 的 结合 。 

从 用 户 角色 上 看 ,本 文 构建 的 原型 系统 存在 两 类 用 户 。 

一 是 新 闻 订 阅 者 。 他 们 可 以 在 系统 中 进行 注册 ,指定 自己 感 兴趣 的 新 闻 类 别 ,并 获得 系 
统 推荐 给 他 们 的 新 闻 ,进行 阅读 。 

二 是 数据 管理 员 。 这 种 用 户主 要 是 完成 后 台数 据 管理 ,包括 新 闻 内 容 的 获取 、 分 类 器 的 
训练 参数 配置 等 。 数 据 管理 员 不 一 定 是 真实 的 人 ,可 以 是 虚拟 构造 的 系统 用 户 ,按照 定时 
的 方式 来 执行 数据 管理 功能 。 

具体 来 说 ,该 原型 系统 要 完成 的 任务 或 需求 描述 如 下 。 

(1) 新 闻 订 阅 者 的 注册 、 登 录 处 理 。 

(2) 新 闻 订 阅 者 进行 新 闻 阅 读 所 需要 的 界面 。 

(3) 自动 获取 新 闻 网 站 的 新 闻 页 面 ,并 根据 这 些 页 面 已 有 的 类 别 , 构 建新 闻 分 类 器 。 

(4) 自动 获取 一 些 没有 类 别 标签 的 新 闻 页 面 .利用 新 闻 分 类 器 完成 新 闻 分 类 ,并 将 这 些 
新 闻 与 新 闻 订 阅 者 的 兴趣 类 别 进行 匹配 和 推荐 。 

(5) 从 性 能 上 看 ,该 原型 系统 需要 具备 大 数据 处 理 的 能 力 , 即 新 闻 数 据 量 大 的 场景 。 需 
要 考虑 系统 的 存储 能 力 、 可 扩展 能 力 等 。 
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后 续 将 围绕 这 些 需 求 和 任务 介绍 原型 系统 的 开发 .部 署 方 法 。 


9.2 系统 架构 


为 了 从 性 能 上 确保 系统 的 性 能 .充分 考虑 新 闻 数 据 量 和 系统 用 户 增多 的 情况 下 所 需要 
的 扩展 能 力 ,该 原型 系统 的 设计 是 基于 阿里 云 及 其 大 数据 平台 。 整 个 原型 系统 的 系统 架构 











如 图 9-1 所 示 。 
A 
外 a 
新 闻 订阅 者 数据 管理 员 
个 性 化 二 二 | 『 后 台数 所 管理: 新闻 训练 样本 获取 
失 和 与 痛 旬 必用 中 四 二 者、 党 用 国 计 | 分 类 器 构建 、 参 数 配置 等 
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图 9-1 新 闻 推荐 系统 架构 


整体 上 看 ,该 系统 有 4 个 层次 , 即 云 计算 基础 设施 层 、 计 算 与 存储 层 、 数 据 挖掘 与 数据 管 
理 层 及 个 性 化 推荐 与 管理 层 。 其 中 , 云 计算 基础 设施 层 是 由 阿里 云 提供 的 云 平 台 。 计 算 与 
存储 层 利 用 阿里 云 大 数据 平台 提供 的 大 数据 计算 服务 来 实现 分 布 式 集群 计算 ,保障 系统 的 
扩展 性 ,应 对 大 量 系统 用 户 和 大 量 新 闻 页 面 情况 下 的 处 理 。 同 时 该 层 提 供 了 一 些 存 储 能 力 ， 
保存 采集 到 的 原始 新 闻 信息 ,以 及 经 过 处 理 后 的 新 闻 信息 。 数 据 挖 掘 与 数据 管理 层 则 是 对 新 
闻 信 息 进 行 特 征 分 析 , 选 择 合适 的 分 类 器 ,利用 新 闻 特 征 数据 进行 分 类 器 的 训练 。 同 时 对 于 没 
有 类 别 标签 的 新 闻 进 行 自 动 分 类 。 个 性 化 推荐 与 管理 层 是 为 新 闻 订 阅 者 提供 的 用 户 界 面 ,以 
及 为 后 台数 据 管理 员 提 供 的 数据 管理 执行 环境 。 在 该 原型 系统 中 ,用 户 界面 和 数据 管理 执行 
环境 是 基于 阿里 云 的 云 服务 器 架构 . 即 弹 性 计算 服务 (Elastic Compute Service .ECS) 。 


9.3 存储 设计 


在 这 个 架构 中 ,需要 存储 以 下 几 种 信息 。 
(1) 采集 到 的 HTML 原始 文件 。 当 用 户 选择 浏览 本 地 已 经 下 载 的 新 闻 信 息 时 ,就 从 这 
些 存 储 的 文件 读 取 。 
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(2) 新 闻 页 面 信息 ,包括 新 闻 对 应 的 URL, 以 及 从 Web 页 面 上 提取 的 新 闻 正 文 。 
(3) 新 闻 的 结构 化 信息 ,包括 链接 、 归 属 类 别 \ 时 间 、 标 题 。 

(4) 系统 用 户 信息 ,包括 用 户 账号 、 密 码 , 以 及 用 户 感 兴趣 的 新 闻 类 别 。 

(5) 新 闻 分 类 器 的 训练 样本 信息 ,包括 新 闻 的 标题 .时 间 、 特 征 词汇 .归属 类 别 。 
(6) 分 类 器 模型 ,是 指 训练 好 的 分 类 器 模型 参数 的 存储 。 


9.3.1 RDS 


RDS 是 一 种 云 数据 库 系 统 , 属 于 关系 型 数据 库 。 在 阿里 云 平 台中 ,目前 支持 4 种 类 型 
的 关系 型 数据 库 系统 , 即 MySQL SQLServer、PostgreSQL ,以 及 兼容 Oracle 的 PPAS, 用 户 
可 以 根据 需求 选择 。 

除了 数据 库 类 型 外 ,在 RDS 配置 时 ,还 允许 对 以 下 属性 进行 选择 。 

(1) 数据 库 系统 的 版 本 : 如 MySQL 支持 5. 5、5.6。 

(2) CPU 规格 及 内 存 : 可 以 选择 的 规格 有 1 核 ,2 核 .4 核 .8 核 .16 核 .30 核 (独占 主 
机 ) 。 

(3) 存储 空间 : 从 5GB 到 2000GB, 可 以 根据 需求 选择 。 

(4) 网 络 类 型 : 专用 网 络 或 经 典 网 络 。 

(5) 数据 库 服 务 器 的 购买 时 长 : 该 数据 库 在 设 定 的 时 间 是 有 效 的 。 

在 选择 好 这 些 参数 后 , 云 平台 自动 计算 出 RDS 的 费用 。 图 9-2 所 示 的 是 一 个 计算 结果 
的 示例 。 





地 起 ”人 坊 北 2 可 用 区 A 

配置。 2 核 8GB. MySQL5.5 
网 将 : 。 专 有 网 洛 

购买 量 。 1 台 

配置 费用 


¥4398.00 
图 9-2 RDS 的 配置 与 购买 


配置 成 功 后 ,将 生成 一 个 数据 库 实例 名 称 ,假设 为 rds_instancel 。 

此 后 ,可 以 通过 平台 的 功能 ,登录 到 该 数据 库 中 ,进行 数据 表 的 创建 \ 修 改 、 数 据 记 录 的 
查询 .统计 等 。 系 统 提供 了 标准 的 SQL 语言 来 编写 相关 命令 。 图 9-3 所 示 的 是 一 个 登录 数 
据 库 之 后 的 操作 界面 ,可 以 进行 数据 表 的 查询 .数据 导入 .数据 导出 等 操作 。 

在 本 系统 中 ,根据 需求 创建 了 两 个 数据 表 , 即 user 和 news, 分 别 保 存 上 述 的 系统 用 户 
信息 和 新 闻 信 息 ,相关 的 字段 及 其 类 型 显示 在 系统 窗口 的 左 侧 。 其 中 ,news 表 中 的 
tagname 是 新 闻 的 归属 类 别 .ossurl 是 该 新 闻 页 面 对 应 的 HTML 文件 指向 ,这 是 为 了 满足 
用 户 对 原始 HTML 页 面 (快照 ) 查 看 的 需求 。 在 该 表 中 ,主键 是 新 闻 的 URL, 通 过 该 主键 关 
联系 统 中 的 其 他 存储 记录 。user 表 中 的 theme 是 指 用 户 感 兴趣 的 新 闻 类 别 , 它 通过 间隔 符 
“一 将 不 同 的 类 别 字 符 串 连接 起 来 ,从 而 可 以 表达 用 户 对 多 个 不 同类 别 新 闻 的 兴趣 。 
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目 url varchar(300) 
目 tagname varchar(32) 
上 newstime varchar(32) 






title varchar(200) SS wi 
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图 9-3 数据 库 的 操作 界面 
9.3.2 OSS 


OSS 是 阿里 云 的 对 象 存储 服务 .是 一 种 分 布 式 的 对 象 存储 服务 ,提供 的 是 一 个 Key- 
Value 对 形式 的 对 象 存储 服务 。 对 象 是 OSS 存储 数据 的 基本 单元 ,也 被 称 为 OSS 的 文件 。 
对 象 由 元 信息 (Object Meta) ,用 户 数据 (Data) 和 文件 名 (Key) 组 成 。 对 象 由 存储 空间 内 部 
唯一 的 Key 来 标示 。 与 关系 型 数据 库 或 普通 的 文件 系统 相 比 ,从 对 象 上 传 成 功 到 被 删除 为 
止 的 整个 生命 周期 内 ,OSS 中 保存 的 Object 是 不 支持 修改 的 。 

在 OSS 中 有 一 个 重要 的 概念 是 Bucket ,规定 所 有 对 象 必须 隶属 于 某 个 容器 。 容 器 具有 
以 下 特点 。 

(1) 同一 个 存储 空间 内 部 的 空间 是 扁平 的 ,没有 文件 系统 的 目录 等 概念 ,所 有 的 对 象 都 
是 直接 隶属 于 其 对 应 的 存储 空间 。 

(2) 每 个 用 户 可 以 拥有 多 个 存储 空间 。 

(3) 存储 空间 的 名 称 在 OSS 范围 内 必须 是 全 局 唯一 的 ,一 旦 创建 无 法 修改 名 称 。 

(4) 存储 空间 内 部 的 对 象 数目 没有 限制 。 

阿里 云 平台 提供 了 控制 台 可 以 创建 Bucket ,查看 各 种 存储 。 它 可 以 用 来 存储 各 种 类 型 
的 文件 ,如 视频 .音频 `Web 文件 等 。 图 9-4 所 示 的 是 本 系统 中 存储 的 原始 HTML 新 闻 页 
面 文件 。 

除了 控制 台 外 ,OSS 还 提供 了 API 和 多 种 脚本 语言 SDK 支持 各 种 文件 操作 ,从 而 可 以 
与 自己 的 程序 进行 集成 。 在 本 系统 中 ,OSS 的 应 用 模式 如 图 9-5 所 示 。OSS 作为 文件 存储 
源 , 后 台 疏 虫 程序 获得 Web 新 闻 页 面 数据 被 保存 在 OSS 上 ,用 户 在 进行 新 闻 阅 读 时 经 过 
ECS 与 OSS 通信 ,从 而 得 到 原始 文件 内 容 。 


9.3.3 OTS 
OTS, 即 开放 结构 化 数据 服务 , 现 称 表格 存储 (Table Store)。OTS 是 基于 阿里 云 计算 
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文件 各 大 小 类 ”9 间 振作 

i 2016-08-10 和 

上 国 073865314833.html 。 70.419KB html 。 16.12:14 获取 地 址 。 设置 HTTP 头 型 除 

2016-08-14 

国 081465319657.html 70.028KB html 15:11:03 芭 取 地 址 ”设置 HTTP 头 型 除 

和 2016-08-10 

国 ”082065314933.html 。 70.128KB 。 html 16:12:15 葡 取 地 址 设置 HTTP 头 型 除 
2016-08-10 

国 083165314971.htm| 。 59.55KB hbml 16:12:15 葡 取 地 址 ”设置 HTTP 头 。 浪 除 


图 9-4 从 OSS 控制 台 查看 存储 的 原始 HTML 新 闻 页 面 文件 


和 人 人心 

OSS Et 用 户 

Oss ECS 
存储 文件 服务 端 


图 9-5 OSS 的 应 用 模式 


技术 构建 的 一 个 分 布 式 结构 化 和 半 结 构 化 数据 的 存储 和 管理 服务 。 它 的 主要 特点 体现 在 以 
下 3 个 方面 。 

(1) OTS 的 数据 模型 是 以 二 维 表 为 中 心 的 , 表 有 行 和 列 的 概念 ,但 是 与 传统 数据 库 不 
一 样 ,OTS 的 表 是 稀 朴 的 ,每 一 行 可 以 有 不 同 的 列 , 可 以 动态 增加 或 减少 属性 列 , 建 表 时 不 
需要 为 表 的 属性 列 定 义 严格 的 Schema。 

(2) 具有 更 好 的 规模 扩展 性 ,能 够 较 容易 地 支持 更 大 的 数据 规模 ( 百 TB 级 别 ) 和 并 发 
访问 ( 单 表 10 万 QPS) 。 

(3) 在 编程 方面 ,OTS 提供 统一 的 HTTP Restful API, 不 支持 传统 的 SQL 语句 标准 。 

表格 存储 数据 模型 概念 包括 表 、 行 .主键 和 属性 。 表 是 行 的 集合 , 行 由 主键 和 属性 组 成 。 
主键 列 和 属性 列 均 由 名 称 和 值 组 成 。 表 中 的 所 有 行 都 必须 包含 相同 数目 和 名 称 的 主键 列 ， 
但 每 行 包含 的 属性 列 的 数目 可 以 不 固定 ,名 称 和 数据 类 型 也 可 以 不 同 。 与 主键 列 不 同 ,每 个 
属性 列 可 以 包含 多 个 版 本 ,每 个 版 本 号 (时 间 截 ) 对 应 一 个 列 值 ,这 也 是 很 多 表格 存储 在 处 理 
多 版 本 时 的 做 法 。 

主键 是 表 中 每 一 行 的 唯一 标识 .由 1~4 个 主键 列 组 成 。 主 键 应 用 在 创建 表 的 时 候 , 必 
须 明 确 指定 主键 的 组 成 ,每 一 个 主键 列 的 名 称 和 数据 类 型 及 它们 的 顺序 。 属 性 列 的 数据 类 
型 只 能 是 string ,integer 和 binary。 

在 OTS 中 也 提供 了 许多 API、SDK( 支 持 Java、Python、. NET) ,可 以 方便 地 在 程序 中 
进行 OTS 的 操作 。 具 体 可 以 参见 阿里 云 提供 的 在 线 帮 助 文档 。 

OTS 与 普通 KV 型 的 NoSQL 类 似 ,主要 的 使 用 场景 是 : 表 的 字段 变化 频繁 ,有 的 时 候 
没有 办 法 提前 判断 出 会 有 哪些 变化 。 例 如 .在 用 户 信息 挖掘 应 用 中 ,用 户 的 特征 属性 很 难 预 
知 , 有 些 属 性 是 可 以 预先 确定 ,如 年 龄 .性 别 等 。 但 是 更 多 的 属性 会 随 着 业务 的 发 展 需求 或 
数据 可 得 性 的 变化 而 增加 。 
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在 本 系统 中 ,将 新 闻 的 正文 文字 存储 在 OTS 中 。 这 些 新 闻 信 息 是 典型 的 非 结 构 化 数 
据 , 其 数据 量 将 会 非常 大 。 同 时 也 考虑 到 以 后 在 新 闻 内 容 上 ,可 能 会 存 人 从 语音 、 视 频 中 提 
取出 来 的 文本 信息 ,但 是 这 种 信息 也 不 是 每 个 新 闻 都 会 涉及 。 因 此 ,综合 考虑 决定 将 以 内 容 
为 主 的 这 部 分 数据 以 OTS 的 方式 来 存储 。 

类 似 于 RDS,OTS 也 是 以 实例 的 方式 存在 ,实例 名 称 设 置 为 tshtml。 如 图 9-6 所 示 , 创 
建 实例 时 ,要 先 确 定 实例 的 位 置 ,一 般 要 与 整个 系统 的 其 他 部 件 , 如 ECS 等 在 同一 个 区 域 ， 
这 样 可 以 避免 因 不 同 地 区 而 产生 的 外 部 流量 消费 。 

在 创建 实例 后 ,需要 在 该 实例 下 创建 本 应 用 所 需要 的 数据 表 pagestore。 显 然 ,这 个 表 
的 主键 就 是 新 闻 对 应 的 URL。 








天 全 Table Store 1 六 WE 理 | 加 天 sm we sal SR 
实例 列 要 人 @ 访 入 域 目 前 去 持 高 性 能 二 译 和 和 容量 了 详 避 
实例 大 称 实例 规模 实 全 三 起 状态 创建 时 则 操作 
tshtml 高 性 散 实 全 存 信 HTML 解 析 的 杠 关 内 容 运行 中 2016-07-28 11:17:14 管理 | 区 放 


图 9-6 OTS 的 实例 


9.3.4 MaxCompute 


MaxCompute 是 阿里 云 大 数据 计算 服务 ,其 原名 称 为 ODPS (Open Data Processing 
Service), 即 开放 数据 处 理 服务 ,是 阿里 云 自主 研发 的 海量 数据 离线 处 理 服务 。 
MaxCompute 主要 针对 PB 级 别 数据 .实时 性 要 求 不 高 的 批量 结构 化 数据 存储 和 计算 , 它 主 
要 应 用 于 数据 分 析 与 统计 数据 挖掘 、 商 业 智能 等 领域 。 

图 9-7 所 示 的 是 MaxCompute 的 体系 结构 ,可 以 看 出 MaxCompute 可 以 通过 ETL 类 
的 数据 同步 工具 接受 来 自 RDS、OSS 及 其 他 业务 系统 中 的 数据 , 从 而 对 存储 在 
MaxCompute 中 的 数据 进行 清洗 ,挖掘 、 分 析 等 处 理 。 








云 业 务 系统 
图 "cs 
国 oss 
图 zcs 


本 地 业务 系统 
mi Oracle 
BB ysQL 
民 Wit 大 让 务 MaxCompute( 原 ODPS) 




















图 9-7 MaxCompute(ODPS) 的 体系 结构 
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就 个 性 化 新 闻 推 荐 系统 而 言 ,需要 进行 挖掘 分 析 的 是 新 闻 的 特征 分 类 。 因 此 ,在 
MaxCompute 的 存储 中 ,设计 了 以 下 的 3 个 MaxCompute 数据 表 。 

(1) news_analyzer。news_analyzer 的 主要 功能 是 用 以 存放 用 于 新 闻 分 类 的 含有 新 闻 
类 别 的 新 闻 信息 ,包括 链接 新闻 归属 类 别 、 新 闻 标 题 . 新 闻 发 布 时 间 。 除 此 之 外 ,该 表 还 包 
括 了 代表 该 新 闻 的 特征 词汇 在 文本 中 出 现 的 次 数 . 这 部 分 特征 量 比较 大 。 

具体 的 字段 及 类 型 : url(string) ,tag_name(string) ,title(string) ,news_time(string)、 
wl(int)~wll196(int), 

分 区 字段 : collect_time(string)。 

其 中 ,wl 到 w1196 是 特征 词汇 出 现 的 次 数 。 之 所 以 设 定 1196 个 词汇 ,是 由 于 当前 
ODPS 对 表 的 输入 字段 个 数 限定 最 多 为 1200 个 。 

(2) news_collecor。news_collecor 的 主要 功能 是 用 于 存放 待 分 类 的 没有 类 别 标签 的 新 
闻 相 关 信 息 , 包 括 链接 ,标签 .标题 .新 闻 时 间 , 以 及 和 news_analyzer 相同 的 特征 词汇 。 表 
结构 和 news_collecor 一 样 ,这 样 可 以 使 得 训练 样本 和 测试 样本 的 生成 程序 一 致 。 

(3) news_result。 机 器 学 习 模 块 利 用 已 经 训练 好 的 分 类 器 对 news_analyzer 表 中 的 各 
个 记录 进行 预测 分 类 ,并 将 分 类 结果 保存 到 news_result 表 中 ,因此 该 表 的 结构 也 和 news_ 
analyzer 类 似 ,只 不 过 每 个 记录 有 对 应 的 类 属 标 签字 段 prediction_result (string) 。 

阿里 云 大 数据 平台 提供 了 MaxCompute 管理 控制 台 ,主要 用 于 Project Owner( 即 创建 
Project 的 云 账 号 ,相当 于 传统 关系 数据 库 DBA 的 角色 ) 对 于 Project、 用 户 、 角 色 、 表 、 安 全 
等 的 管理 .配置 .授权 ,监控 等 。 图 9-8 所 示 的 是 本 系统 设计 中 所 用 到 的 3 个 表 , 它 们 都 属于 


同一 个 Project, 即 news_recommendation 。 








大 数据 计算 服务 项 目 : news_recommendation 

“项目 管 理 输入 表 各 搜索 

于 全 全 天 表 名 责任 人 : 权限 管理 摊 作 
表 管理 news_analyzer ALIYUNSfdzengjp 查看 权限 | ACL 授 权 SS 入 | 从 次 | 

Es news_collector ALIYUNSrdzengjp 查看 权限 | ACL 授 权 SS 入 | 侈 k | 
查看 作业 news_result ALIYUNSfdzengjp 查看 权限 | ACL 授 权 导入 | 个 交 | 
ls 


图 9-8 ”MaxCompute 管理 控制 台中 定义 的 3 个 表 


对 于 这 些 表 的 数据 生成 ,MaxCompute 允许 有 两 种 方式 。 一 种 是 通过 途中 的 “导入 ” 操 
作 , 上 传 本 地 设计 好 的 文本 文件 ,将 文件 内 容 导 入 到 对 应 的 表 中 ,4.7.2 节 展 示 的 就 是 这 个 
功能 。 而 作为 一 个 系统 , 待 分 类 样本 的 处 理 要 求 能 快 一 些 标注 完成 ,因此 这 里 的 news 一 
collector 是 通过 程序 自动 完成 数据 的 插入 , 即 待 分 类 数据 。 由 于 模型 训练 并 不 是 很 频繁 执 
行 的 过 程 ,因此 对 这 类 型 的 数据 可 以 采用 第 一 种 方式 , 当 用 户 认为 需要 重新 训练 分 类 器 时 上 
传 训练 样本 ,当然 也 可 以 采用 第 二 种 方式 。 
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9.4 软件 架构 


个 性 化 新 闻 推荐 系统 的 软件 架构 如 图 9-9 所 示 , 从 组 成 结构 上 看 ,除了 前 述 提 到 的 各 种 
存储 外 ,还 包括 了 Web 页 面 服务 、 各 种 Java 程序 及 机 器 学 习 模 块 ,它们 之 间 的 关系 在 图 中 










进行 了 连 线 表示 。 
A ww 
A 新闻 
新 闻 -新闻 
We Ls 
纤 全 


Web 
页 面 服务 





机 器 学 习 ”ODPS 存 储 ”OTS 存 储 RDS 存 侍 。 ”OSS 存储 文件 


图 9-9 个 性 化 新 闻 推荐 系统 的 软件 架构 


架构 中 的 各 种 存储 及 机 器 学 习 是 直接 基于 阿里 云 提供 的 服务 ,在 阿里 云 大 数据 体系 中 ， 
机 器 学 习 是 相对 比较 独立 的 一 个 服务 ,其 输入 /输出 主要 依赖 于 ODPS 表 。 本 系统 主要 使 
用 机 器 学 习 中 的 分 类 和 特征 处 理 。 

Web 页 面 服务 是 由 部 署 在 ECS 上 的 Web 服务 器 提供 的 ,主要 完成 新 闻 订 阅 者 的 各 种 
界面 交互 。 因 此 ,ECS 需要 访问 RDS 的 数据 表 , 以 实现 用 户 信息 及 相关 的 新 闻 信 息 操 作 。 
同时 也 需要 访问 OSS, 以 获得 原始 的 HTML 页 面 信息 。 

Java 程序 运行 在 控制 台 上 ,分 别 是 怜 虫 程序 .训练 样本 生成 、 待 分 类 样本 生成 及 获取 类 
别 标签 结果 。 前 两 者 的 处 理 方法 大 体 类 似 .其 生成 的 数据 都 是 输入 到 ODPS 中 ,而 最 后 一 
个 则 是 获得 机 器 学 习 的 分 类 结果 。 

在 这 种 架构 下 ,分 类 器 的 训练 是 针对 批量 数据 进行 的 .只 有 当 训练 样本 充足 时 才 进行 训 
练 。 而 实际 的 无 标签 样本 分 类 既 可 以 是 一 种 批量 形式 ,也 可 以 是 一 种 数据 流 形式 。 这 种 架 
构 在 整体 思想 上 与 第 6 章 提 到 的 分 类 方法 是 一 致 的 。 


9. 4.1 ECS 


ECS 是 一 种 云 计算 服务 ,本 身 虽然 不 是 大 数据 分 析 平 台 的 组 成 ,但 是 它 在 环境 构建 中 
的 作用 较 大 。 在 本 系统 中 它 主要 提供 了 一 种 个 性 化 推荐 与 管理 层 的 执行 框架 。 

在 使 用 ECS 之 前 ,需要 通过 云 服务 器 管理 控制 台 配 置 系统 所 需要 的 ECS 实例 。 配 置 
过 程 主要 是 选择 实例 规格 、 磁 盘 、 操 作 系 统 类 型 .带宽 ,安全 组 ,以 及 为 操作 系统 设 定 控制 台 

ECS 实例 是 一 个 虚拟 的 计算 环境 ,包含 CPU 内存 等 最 基础 的 计算 组 件 , 是 云 服 务 器 呈 
献 给 每 个 用 户 的 实际 操作 实体 。ECS 实例 是 云 服务 器 最 为 核心 的 概念 .其 他 的 资源 (如 磁 





盘 、IP、 镜 像 ,快照 等 ) 只 有 与 ECS 实例 结合 后 才能 使 用 。 
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ECS 的 应 用 非常 广泛 , 它 既 可 以 单独 使 用 作为 简单 的 Web 服务 器 ,也 可 以 与 其 他 阿里 
云 产 品 (如 OSS、OTS 等 ) 搭 配 提 供 强大 的 可 扩展 Web 网 站 框架 。ECS 的 典型 应 用 场景 包 


括 企业 官网 


在 本 系 























\ 简 单 的 Web 应 用 、 多 媒体 、 大 流量 的 APP 或 网 站 等 。 
统 中 ,选择 配置 了 一 个 PHP 服务 框架 ,为 用 户 提供 基于 Web 页 面 的 用 户 注册 、 


登录 ,新闻 阅读 等 服务 。 在 ECS 中 最 主要 的 是 需要 完成 通过 PHP 实现 与 RDS 的 交互 。 下 














面 的 代码 








于 实现 RDS 的 读 操 作 。 


/x* 形式: 访问 地 址 : 端口 */ 


$url= 


' xxx% .mysql. rds. aliyuncs. com: 3306/'; 


$ user = xxxx"; 

$ pass = " xxx "; 

/* 连接 数据 库 服 务 器 : 使 用 数据 库 URL ,用户 名 、 密 码 * / 

$ conn = mysql_connect( $ url, $ user, $ pass) or die( "connect fail 1"); 


/* 指定 数据 库 名 称 , 在 数据 库 服务 器 上 可 以 创建 多 个 数据 库 * / 


mysql_s' 


elect_db( "bigdata", $ conn); 


/* 执行 SQL 命令 * / 

$ select_query= mysql_query(sqlcnd); 

/* 获得 查询 结果 x / 

$ row_result = mysql_fetch_row( $ select_query); 


用 户 通 过 ECS 设计 好 的 页 面 进行 注册 ,登记 用 户 信息 及 所 关注 的 新 闻 类 别 , 系 统 通过 


上 述 数 据 库 


操作 将 这 些 信息 写 人 RDS 数据 表 中 。 注 册 成 功 后 ,用 户 可 以 登录 到 系统 。 用 户 


注册 页 面 和 系统 登录 页 面 如 图 9-10 和 图 9-11 所 示 。 


注册 


| 基本 信息 


账号 


密码 


| 喜欢 的 新 闻 类 别 


类 别 1 


图 


a 


cl 





9-10 用 户 注册 页 面 图 9-11 系统 登录 页 面 
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登录 时 , Web 端 根 据 输入 的 用 户 名 和 密码 产生 一 个 SQL 命令 并 保存 至 变量 sqlemd 
中 ,再 发 送 至 RDS 执行 ,从 而 可 以 根据 返回 的 结果 $ row_result 来 判断 是 否 允 许 登录 。 注 册 成 
功 后 ,后 台 怜 虫 模块 所 获得 的 新 闻 内 容 经 过 新 闻 分 类 模块 得 到 其 类 别 标签 ,与 用 户 注 册 时 设 定 
的 新 闻 类 别 比 对 ,如 果 一 致 , 则 会 出 现在 用 户 界面 中 ,具体 结果 将 在 9. 5. 3 节 详 细 介绍 。 


9.4.2 疏 虫 


在 第 2 章 讲 述 过 疏 虫 的 基本 原理 ,本 系统 中 的 怜 虫 是 在 传统 怜 虫 的 基础 上 ,对 URL 设 
定 了 一 定 过 滤 , 使 得 怜 取 下 来 的 都 是 一 些 新 闻 页 面 。 

在 Java 实现 中 ,引入 htmlparser-1. 6.jar 包 , 调 用 其 NodeFilter 类 对 HTML 根据 类 别 
标签 进行 筛选 , 选 出 新 闻 的 URL. 随 后 访问 每 个 URL 再 用 NodeFilter 筛选 出 其 中 的 标题 、 
新 闻 正 文 。 

如 图 9-12 所 示 的 聆 虫 功能 实现 流程 是 针对 带 有 类 别 标签 的 新 闻 ,而 不 带 类 别 标签 的 新 
闻 疏 取 与 该 流程 类 似 , 不 再 重复 画 出 来 。 需 要 完成 3 个 处 理 过 程 。 


阜 取 主流 新 闻 网 站 
的 分 类 新 闻 











解析 和 新 闻 信息 提取 


保存 新 闻 正 文 信息 人 a 间 等 


图 9-12 息 虫 功能 的 实现 流程 
(1) 将 原始 Web 页 面 文件 写 人 到 OSS 中 。 主 要 的 步骤 如 下 : 


| 利用 HtmlParser 进 行 节点 





保存 原始 Web 页 面 | 














// 引 入 阿里 云 0SS 的 相关 包 

import com.aliyun. oss. OSSClient; 

import com.aliyun. oss. model. OSSObjectSummary; 
import com.aliyun. oss. model. ObjectListing; 


// 创 建 0SSClient 实例 ,指定 0SS 的 访问 地 址 ,访问 的 KeyID 和 密 钥 

OSSClient ossClient = new 0SSClient(endpoint, accessKeyId, accessKeySecret); 
// 获 得 候 虫 获取 到 的 页 面 文件 File file( 具 体 过 程 省 略 ) 

// 将 文件 file 上 传 到 0SS 指定 的 Bucket 中 

ossClient. putObject ("htmlfiles", file. getName(), file); 

ossClient. shutdown(); 


(2) 将 正文 存储 到 OTS 中 ,主要 步骤 如 下 : 


// 引 入 阿里 云 0TS 的 相关 包 
import com.aliyun. openservices.ots. * ; 


// 创 建 一 个 0TSClient 对 象 , 指定 0TS 访问 地 址 、KeyID、 密 钥 和 0TS 的 实例 名 称 (在 控制 台 创 建 0TS 实 
例 时 设 定好 的 名 称 ) 
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OTSClient client = new OTSClient(endPoint, accessId, accessKey, instanceName); 
// 指 定 主键 列 , 即 新 闻 页 面 的 URL 
RowPrimaryKey primaryKey = new RowPrimaryKey( ); 
primaryKey. addPrimaryKeyColumn("url", PrimaryKeyValue. fromString(url1)); 
// pagestore 是 0TS 数据 表 的 名 称 
RowPutChange rowChange = new RowPutChange( "pagestore"); 
rowChange. setPrimaryKey(primaryKey); 
// 定义 要 写 人 改行 的 属性 列 , para 是 正文 内 容 
rowChange. addAttributeColumn("col10", ColumnValue. fromString(para)); 
// RowExistenceExpectation. EXPECT_NOT_EXIST 表示 只 有 此 行 不 存在 时 才 会 执行 插入 
rowChange. setCondition(new Condition(RowExistenceExpectation. EXPECT_NOT_EXIST) ) ; 
try { 
// 构 造 插入 数据 的 请 求 对 象 
PutRowRequest request = new PutRowRequest(); 
request. setRowChange (rowChange); 
// 调 用 PutRow 接口 插入 数据 
client. putRow( request); 
// 如 果 没 有 抛 出 异常 , 则 说 明 执行 成 功 
System. out. println("Put row succeeded. " ); 
} catch (ClientException ex) { 
System. out. println("Put row failed. "); 
} catch (OTSException ex) { 
System. out. println("Put row failed. "); 
} 
client. shutdown( ); 





(3) 将 新 闻 的 结构 化 信息 写 入 到 RDS 表 中 。 在 本 系统 配置 中 ,由 于 RDS 选择 的 实际 
上 是 MySQL, 因 此 这 里 在 Java 中 操作 RDS 就 与 MySQL 是 一 样 的 。 以 下 代码 是 一 个 插入 
数据 的 过 程 。 


public void InsertSQL( String keys, String URL, String title, String newstime ){ 
try{ 
Class. forName( "com. mysql. jdbc. Driver" ); 
Connection con = DriverManager. getConnection ( " jdbc: mysql:// ****. mysql. rds. 
aliyuncs. com:3306/personal_news", "root"," xxxx "); 
Statement stmt = con.createStatement(); 
// 生 成 插入 数据 的 SQL 
String sql = "INSERT INTO keyandurl( keyname, url,title,newstime) VALUES( '" + keys + 
"m+URL+"','"+titlet+"', '"+newstime + "')"; 
String exesql = new String (sql); 
stmt. execute( exesql); 
stmt. close(); 
con. close( ); 
}catch(Exception e){ 
e.printStackTrace( ); 
} 


对 于 和 候 虫 的 运行 测试 将 在 9. 5 节 中 详细 介绍 。 























274 互联 网 大 数据 处 理 技术 与 应 


9.4.3 模型 训练 


当 带 类 别 标签 的 新 闻 正 文 累积 到 一 定数 量 后 ,就 可 以 对 这 些 正 文 进行 处 理 , 以 生成 分 类 
的 样本 数据 集 。 一 般 为 了 提高 分 类 器 的 准确 性 ,训练 样本 需要 人 工 标注 。 不 管 是 采用 哪 种 
方式 ,只 要 最 终 按照 news_analyzer 表 的 格式 记录 训练 样本 即 可 。 在 这 个 过 程 中 ,需要 从 
OTS 中 读 取 所 有 的 正文 信息 ,进行 词汇 切 分 、 停 用 词 过 滤 , 再 构建 新 闻 一 词汇 的 词 频 矩阵 ， 
与 RDS 的 相应 信息 ,一 起 形成 训练 样本 。 图 9-13 所 示 的 是 这 个 过 程 的 流程 图 描述 。 








从 RDS 获 得 新 闻 类 别 标签 


从 OTS 中 获得 正文 等 结构 化 信息 





1 
对 所 有 新 闻 进 行 正文 分 词 、 
停 用 词 过 滤 等 处 理 
1 
构建 新 闻 一 词汇 的 词 频 矩阵 


生成 ODPS 的 输入 数据 



































图 9-13 构建 训练 样本 集 
下 面 是 根据 URL 读 取 一 个 OTS 记录 的 过 程 。 


// 创 建 一 个 OTSClient 对 象 , 指定 0TS 的 实例 名 
OTSClient client = new OTSClient(endPoint, accessId, accessKey, instanceName); 
RowPrimaryKey primaryKey = new RowPrimaryKey( ); 
primaryKey. addPrimaryKeyColumn("url", PrimaryKeyValue. fromString(url)); 
SingleRowQueryCriteria criteria = new SingleRowQueryCriteria( "pagestore"); 
criteria. setPrimaryKey(primaryKey); 
try{ 

// 构 造 查询 请 求 对 象 ,这 里 未 指定 读 哪 列 , 默认 读 整 行 

GetRowRequest request = new GetRowRequest(); 

request. setRowQueryCriteria(criteria); 

// 调 用 GetRow 接口 查询 数据 

GetRowResult result = client. getRow( request); 

// 输 出 此 行 的 数据 

Row row = result. getRow(); 

int consumedReadCU = result. getConsumedCapacity ( ). getCapacityUnit ( ). 

getReadCapacityUnit( ); 

client. shutdown( ); 

// 返 回 URL 对 应 的 正文 

return (row.getColumns().get("col0"). toString( )); 

} catch (ClientException ex) { 

// 如 果 抛 出 客户 端 异常 , 则 说 明 参 数 等 有 误 

System. out. println("Get row failed."); 

} catch (OTSException ex) { 
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// 如 果 抛 出 服务 器 端 异 常 , 则 说 明 请 求 失败 
System. out. println("Get row failed."); 


} 


最 终 把 训练 样本 数据 写 人 ODPS 表 中 ,主要 过 程 如 下 。 


Account account = new AliyunAccount (accessId, accessKey); 
0dps odps = new Odps(account); 
odps. setEndpoint (odpsUr1); 
odps. setDefaultProject(project); 
try{ 
TableTunnel tunnel = new TableTunnel(odps); 
tunnel. setEndpoint (tunnelUr1); // 完 成 0DPS 的 Tunnel 初始 化 
PartitionSpec partitionSpec = new PartitionSpec(partition); 
UploadSession uploadSession = tunnel. createUploadSession(project, table, partitionSpec); 
// 新 建 上 传 分 区 
TableSchema schema = uploadSession. getSchema( ); 
RecordWriter recordWriter = uploadSession. openRecordWriter(0); 
Record record = uploadSession. newRecord( ); // 新 建 记录 行 
record. setString(i, string)/ 
record. setBigint(i, Long. parseLong( string) ); // 根 据 记录 每 列 字 段 类 型 插入 数据 
recordWriter. write( record); // 写 人 记录 行 
} catch (Exception e) { 
e. printStackTrace( ); 


} 


生成 ODPS 的 数据 后 ,进入 管理 控制 台 进行 算法 开发 ,建立 项 目 、 指 定 ODPS 数据 源 为 
news_recommendation。 以 ODPS 中 的 news_analyzer 表 中 的 数据 作为 训练 样本 ,在 控制 台 
中 建立 实验 。 在 实验 中 , 拖 中 相关 的 组 件 , 即 ODPS 输入 表 , 分 类 器 模型 采用 逻辑 回归 多 分 
类 器 ,所 设计 的 训练 流程 如 图 9-14 所 示 。 该 模型 执行 完毕 后 ,会 生成 分 类 器 模型 ,该 模型 保 
存 于 平台 的 “模型 " 库 中 ,如 图 9-15 所 示 ,这些 可 以 被 其 他 的 实验 流程 所 使 用 。 








news_recommendaton 


vv 大 实 尘 模型 
» ms 
YY 大 新 闻 分 类 
» 和 KNN 
YY 陋 在 半分 类 
”大 训 竺 分 类 茵 
于 补 素 贝 叶 斯 -P-Model 
[Er 
砍 补 素 由 时 斯 -1-Model 
» 和 DEMO 


» 和 topic_cluster 








逻辑 回归 多 分 类 -1 回 ) 





图 9-14 分 类 器 的 训练 流程 图 9-15 “模型 " 库 中 的 模型 
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9.4.4 分 类 过 程 


分 类 过 程 是 对 没有 类 别 标签 的 新 闻 页 面 进行 自动 标注 ,这 里 包括 两 个 流程 , 即 样本 集 的 
生成 和 分 类 。 其 中 ,分 类 中 的 样本 集 生 成 过 程 与 图 9-13 类 似 , 这 里 不 再 重复 。 

分 类 就 是 利用 训练 得 到 的 模型 对 样本 进行 类 别 的 判断 ,这 个 过 程 也 是 在 阿里 云 大 数据 
平台 中 的 机 器 服务 中 完成 的 。 具 体 流程 如 图 9-16 所 示 。 其 中 的 逻辑 回归 多 分 类 器 即 是 输 
入 的 分 类 器 ,news_collector 是 要 分 类 的 样本 集 。 工 作 流 中 的 预测 完成 类 别 标签 的 自动 标 
注 , 分 类 结果 记录 到 ODPS 中 的 news_result 表 中 。 接 下 来 由 Java 程序 读 取 该 表 中 的 记录 ， 
从 而 获得 标签 结果 。 有 具体 流程 如 图 9-17 所 示 。 








6]】 news_collector-1 回 ) 
全 加 各 日 归 多 分 类 -… 名 ) J 





ee】 news_result-2  ®@) 


图 9-16 对 没有 标签 的 新 闻 进 行 分 类 





读 取 分 类 的 ODPS 输 出 表 






将 分 类 标签 等 新 闻 信 息 
写 入 到 RDS 表 中 










更 新 注册 用 户 的 推荐 列表 





图 9-17 分 类 结果 的 处 理 流程 
分 类 模块 的 运行 测试 .所 得 到 的 效果 将 在 9. 5 节 中 详细 介绍 。 


9.4.5 开源 代码 


本 系统 的 代码 可 以 在 github 上 下 载 (https://github. com/jpzeng/jpzeng)。 程 序 分 别 
在 Java、crawler.news 3 个 目录 中 ,其 中 主要 的 类 和 实现 的 功能 说 明 如 下 。 

(1) crawler 目录 。HtmlCrawler 类 是 爬虫 的 入 口 ,该 Demo 系统 设 定 从 http://news. 
sina. com. cn/ 作 为 新 闻 采 集 的 首页 ,可 以 直接 在 源 文件 中 修改 。 

NewsHtmlParser 类 是 核心 .主要 完成 html 页 面 存储 到 OSS .解析 页 面 、 提 取 新 闻 信 上 
息 . 写 人 到 OTS 表 等 功能 ,需要 注意 的 是 ,需要 根据 具体 情况 配置 好 阿里 云 所 分 配 的 
accessKeyId .accessKeySecret 两 个 参数 。 
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(2) Java 目录 。CollectNews 类 完成 数据 提取 ,并 写 人 到 MaxCompute 数据 表 , 即 news 
_analyzer 和 news_collecor。 这 两 个 表 中 的 新 闻 记 录 分 别 用 于 分 类 模型 的 训练 和 实际 
分 类 。 

GetAnalyzeResult 则 将 机 器 学 习 组 件 的 分 类 结果 取 回 , 放 到 RDS 中 ,供用 户 浏 览 。 

(3) news 目录 。news 目录 用 于 PHP 服务 器 ,提供 登录 页 面 \ 注 册页 面 等 功能 。 


9.5 阿里 云 大 数据 的 应 用 开发 


9.5.1 开发 环境 


开发 阿里 云 大 数据 应 用 时 ,一 般 按照 以 下 步骤 进行 。 

(1) 云 服务 的 配置 。 根 据 设 计 要 求 , 在 阿里 云 上 创建 ECS 实例 ,以 及 RDS、OSS、ODPS 
等 存储 。 如 果 是 通过 Web 的 方式 为 用 户 提供 页 面 接口 的 , 则 在 ECS 上 配置 Web 服务 器 。 

(2) 建立 本 地 开发 环境 。 

(3) 本 地 程序 设计 与 调试 。 

(4) 部 署 到 云 环境 。 

(5) 在 云 环境 下 测试 。 

步骤 (1) 在 前 面 的 章节 中 已 经 做 了 较为 详细 的 说 明 ,这 里 主要 介绍 步骤 (2) 一 (5) 。 

在 建立 本 地 开发 环境 时 ,一 般 使 用 Eclipse 类 的 开发 环境 比较 方便 。 阿 里 云 服务 支持 多 
种 开发 语言 ,Java 语言 是 比较 合适 的 选择 。 在 配置 Eclipse 时 ,最 主要 的 是 导入 相关 的 包 ， 
包括 用 于 RDS、OSS、OTS 等 存储 访问 的 包 。 在 本 系统 中 ,主要 有 htmlparser-1. 6. jar、ac__ 
arithmetic. jar、aliyun-sdk-oss-2. 2. 3. jar 及 附属 包 、mysql-connector-java-5. 1. 30-bin. jar、 
ots-public-2. 2. 4-javadoc. jar 等 ,阿里 云 相关 的 jar 包 都 可 以 从 https://help. aliyun. com/ 
找到 。 下 载 并 导入 这 些 包 到 本 地 。 

在 Eclipse 的 对 话 框 中 选择 "Java Build Path”, 单 击 "Add External JARs” 按 钮 ,选择 jar 
的 位 置 导 入 即 可 ,如 图 9-18 所 示 。 

对 于 在 本 地 进行 ODPS 相关 应 用 开发 时 ,要 先 安 装 ODPS Eclipse 插件 ,复制 到 Eclipse 
安装 路 径 的 plugs _in 下 ,随后 下 载 ODPS 客户 端 MaxCompnute 安装 至 本 地 。 初 次 新 建 
ODPS Project, 需 要 先 配置 ODPS 的 客户 端 路 径 , 具 体 过 程 在 help 网 站 上 有 详细 说 明 
(https://help. aliyun. com/ document_detail/27982. html) 。 

在 进行 本 地 开发 调试 时 ,通常 也 会 需要 由 本 地 直接 连接 到 云 上 的 各 种 存储 服务 。 这 需 
要 通过 配置 服务 的 外 部 地 址 来 实现 。 在 配置 OTS、OSS、RDS 时 ,系统 都 会 生成 外 网 地 址 和 
内 网 地 址 ,这 些 地 址 具有 一 定 的 格式 。 假 设 OTS 的 实例 名 为 otsinst, 实例 创建 的 空间 存储 
地 点 选择 在 “华东 1”, 则 相应 的 外 网 地 址 和 内 网 地 址 分 别 是 http://otsinst. cn-hangzhou. 
ots. aliyuncs. com 和 http://otsinst. cn-hangzhou. ots-internal. aliyuncs. com。 

因此 ,在 本 地 开发 调试 时 ,可 以 通过 外 网 地 址 直接 操作 云 上 的 存储 数据 ,当然 这 种 方法 
会 产生 额外 的 费用 ,这 是 由 阿里 云 的 计 费 方式 决定 的 。 例 如 ,对 于 OTS 而 言 ,实际 费 用 计算 
除了 存储 数据 量 . 读 写 吞吐 量 外 ,还 与 外 网 流量 有 关 。 
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Java Build Path 




















四 Source |B Projects 可 Libraries | 0 Order and Export 
JARs and class folders on the build path: 
» B ac_arithmeticjar - F\eclipse\workspace\crawler\lib ~ 
局 aliyun-sdk-oss-2.2.3jar - F\eclipse\workspace\crawler\Iit| 
» 芒 commons-codec-1.6jar - F\eclipse\workspace\crawler\il 
局 commons-codec-1.9jar - F\eclipse\workspace\crawler\Iil 
”局 commons-logging-1.1.3jar - Fi\eclipse\workspace\crawle| 
局 commons-logging-1.2jar - FeciipsevworkspaceNvcrawlenj 
Wolocoring History » @ disruptor-3.0.1jer - F\ecipse\workspece\crawler\ib\ib 
RurVDebwy Setings b 曾 hemcrost-core-1.1jer - Fechipee\workspace\crawlor\ib 
Server b ® htmlperser-1.6jar - F\edipse\workspace\crewler\lib 
Task Tegs ”加 httpasyncclient-4.0.2jer - F\eclipse\workspace\crawler\il| 
b Vealdetion 四 haipdient435jar - FVedipse\workspece\rewio\ib\ib 
画 httpclient-4.4.1jar - F\eclipse\workspace\crawler\lib 
» httpcore-4.3.2jar - F\eclipse\workspace\crawler\lib\lib 
b 芒 httpcore-44.1jar - F\eclipse\workspace\crawler\ib 






































» 匡 httpcore-nio-4.3.2jar - F\eclipse\workspace\crawler\lib\ Migrate JAR File. 
bp 芒 IKAnalyzer2012jar - F\eclipse\workspace\crawler\lib = 
bp 加 jdom-1.1jar - F\eclipse\workspace\crawler\lib 
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图 9-18 导入 外 部 包 


9.5.2 部 署 


在 本 地 开发 完成 后 ,需要 将 各 种 程序 打包 并 上 传 到 服务 端 。 在 本 系统 部 署 中 ,将 Web 
服务 和 Java 程序 都 部 署 在 ECS 中 ,因此 需要 先 在 ECS 上 运行 FTP 的 服务 端 软 件 , 配 置 
FTP 用 户 , 然 后 在 本 地 通过 FTP 连接 ECS 来 实现 文件 的 上 传 。 

在 Eclipse 中 打包 时 ,要 注意 的 是 相关 jar 包 要 一 起 导出 。 具 体 过 程 如 下 。 

(1) 创建 一 个 MANIFEST. MF 文件 ,文件 内 容 如 下 : 


Manifest ~ Version: 1.0 
Main - Class: crawler. HtmlCrawler // 需 要 运行 的 主 类 
Class - Path: lib/lucene- core - 3.6.0. jar // 额 外 引入 的 jar 包 


注意 ,其 中 每 个 “;” 后 必须 要 有 一 个 空格 ; Class-Path 中 每 个 额外 引入 的 jar 包 之 间 必 
须要 用 空格 隔 开 , 当 额外 引入 的 jar 包 过 多 时 ,应 进行 分 行 ,否则 会 出 现 Class-Path 中 line 
too long 的 错误 。 分 行 结束 后 前 一 行 的 结尾 应 该 留 有 一 个 空格 ,此 外 另 起 的 一 行 行 首 也 需 
要 添加 一 个 空格 。 

(2) 打包 。 选 中 Project 名 称 并 右 击 ,在 弹出 的 快捷 菜单 中 选择 "Export” 命 令 。 选 择 导 
出 的 目标 文件 类 型 为 JAR file 类 型 ,以 及 设 定 要 导出 的 jar 位置 和 名 称 , 如 图 9-19 所 示 。 在 
最 后 一 个 步骤 的 Manifest 页 面 中 ,选择 之 前 建 好 的 MANIFEST. MF 文件 ,如 图 9-20 所 示 ， 
完成 jar 的 导出 。 最 终 在 生成 的 jar 文件 的 同一 个 目录 ,将 把 额外 引入 的 jar 包 添 加 进来 。 

当然 ,按照 前 面 关 于 云 服务 的 内 网 和 外 网 地 址 的 说 明 ,在 打包 上 传 之 前 ,将 程序 中 所 设 
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回 国 MANIFESTMF 





口 曙 ACDemo 回 四 .dasspath 
站 | @ .project 





口 Export generated class files and resources 

MI Export all output folders for checked projects 

口 Export Java source files and resources 

口 Export refactorings for checked projects. Select refactorings.. 


图 9-19 选择 导出 的 文件 及 配置 


JAR Manifest Specification 
Customize the manifest file for the JAR file. 





Specify the manifest 
O 〇 Generate the manifest file 
[Save the manifest in the workspace 


DUse the saved manifest in the generated JAR description file 


Meanifest fle: /crawler/MANIFEST.MF 


图 Use existing manifest from workspace 





Manifest file: Vcrawler/MANIFEST.MF 











图 9-20 Manifest 页 面 的 配置 


定 的 外 网 地 址 都 修改 为 内 网 地 址 ,可 以 避免 产生 额外 的 流量 计 费 。 

(3) 上 传 。 将 爬虫 程序 打包 成 为 HtmlCrawler. jar, 连同 相关 的 外 部 jar 包 , 如 
htmlparser 及 连接 OSS、.RDS(MySQL) 的 jar 一 起 上 传 到 ECS 中 。 其 他 需要 上 传 的 还 有 
CollectNews. jar、GetAnalyzeResult. jar、GetOSSUrl. jar。 同 时 将 设计 好 HTML 页 面 和 
PHP 脚本 也 上 传 ,将 它们 放置 在 PHP 服务 器 软件 目录 下 。 


9.5.3 ”运行 与 测试 

在 ECS 的 控制 台 上 ,运行 着 仆 虫 程序 、 生 成 训练 样本 、 生 成 待 分 类 样本 、 获 取 分 类 结果 
等 程序 ,但 实际 上 这 些 可 以 分 开 在 不 同 的 实例 上 运行 ,并 不 依赖 于 ECS 的 环境 。 

该 演示 系统 的 怜 虫 从 新 浪 新 闻 频 道中 抓 取 财经 .时 政 等 类 别 的 新 闻 , 设 定 的 怜 虫 人 口 为 


http://news. sina. com. cn/ 。 在 抓 取 的 过 程 中 同时 进行 Web 信息 提取 ,提取 出 标题 ,URL、 
新 闻 日 期 ,新 闻 正文 等 信息 .部 分 运行 结果 如 图 9-21 所 示 。 
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or\Desktop\NhliyunNcrawler>java -jar HtmlCrawler-jar 
ina.com.cn/c/nd/2816-18-22/doc-ifxwztrt8893231.shtml 


ina.com.cn/c/nd/2816-18-22/doc-ifxwztrt0095434.shtml 


tnl] 
音 制 执行 “ 狼 


-shtml 


-shtml 


Put row succeeded. 





图 9-21 疏 虫 及 Web 信息 提取 


在 获取 页 面 内 容 x 
似 。 训 练 样本 和 待 分 
中 的 tag_pame 为 





后 ,程序 会 生成 训练 样本 。 待 分 类 样本 的 提取 和 生成 过 程 也 与 之 类 
样本 的 格式 相同 ,训练 样本 如 图 9-22 所 示 , 对 于 待 分 类 样本 来 说 ,其 

















图 9-22 ”训练 样本 


模型 训练 完成 之 后 ,执行 图 9-16 所 示 的 分 类 流程 ,可 以 在 该 流程 
单 击 “ 查 看 数据 ”功能 来 查看 部 分 实例 的 分 类 





图 的 最 后 一 个 节点 上 
省 果 ,如 图 9-23 显示 了 部 分 结果 。 图 9-23 中 ， 
url news_time \title 是 is 是 分 类 的 类 别 标签 。 该 功能 除了 能 够 查 
看 这 些 数据 外 ,还 提供 了 每 个 新 闻 与 各 个 类 别 之 间 的 相似 度 大 小 ,记录 在 prediction_detail 
字段 中 。 例 如 ,针对 http://video. sina. com. cn/p/news/c/doc/2016-08-10/073865314833. 


html 页 面 ,其 得 到 的 相似 度 结果 如 下 : 

















{ 

"体育 ": 0.4037433292486323, 
"健康 ": 0.037939027112029， 
"时 政 ": 0.0718553313175352， 
"财经 ": 0.08472314861837763 


最 终 分 类 组 件 选 择 相似 度 最 大 的 “体育 "类 作为 该 新 闻 的 类 别 标签 。 
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ht ”2016-08-04 ”小 产 轩 到底 怎 标 ? 试 各 上 汽 大众 捧 号 新 ， 财经 
网 洛 上 为 IS 握 战士 固 漂 在 美国 BE 
http;..， ”2016-08-05 。 日 本 政府 已 决定 接 乏 明仁 天 县 ` 生 前 退位 .。 时 下 
htp 2016-08-06 ”又 要 开局 无 黎 模 式 ? 试 吕 新 福特 瑞虎 - 财 各 
htp;.。 ”2016-08-06 。 学 生 壮 积 被 中 介 矢 主 是 入 涉 42 名 学 生 共 . ”健康 
htp 2016-08-07 ”内 外 全 面 革新 疑似 全 新 失 强 H6 谋 驮 浊 则 经 
htp， 2016-08-08 全球 最 大 飞行 器 面 次 出 杭 图 ) 《时政 
ht 2016-08-08 日 本 炒作 中 国 择 事 化 东海 中 国 专家 : 日 .。 “时政 
http;.， ”2016-08-08 ”专家 : 亚太 隔 入 美 分 湛 的 公 同 日 本 也 头 .。 时 政 
htp: 2016-08-08 澳门 族 游 巴士 事故 到 30 人 伤 事 发 时 司机 “时政 
htp 2016-08-08 。。” 充 肥 一 瑟 哆 大 模 行 错 手机 应 该 这 样 刘 思 。。 财经 
http;..， ”2016-08-08 23 分 星 网 射手 力 助 球 队 项 双核 心 作用 作痛 
http.。 ”2016-08-08 。 传 蝶 问 E 全 新 功能 中 光 据说 可 以 运 控 汽车 。 健康 





htp 2016-08-05 男 





图 9-23 分 类 的 输出 结果 
对 所 有 新 闻 记 录 的 分 类 过 程 是 在 阿里 云 大 数据 平台 上 的 机 器 学 习 组 件 中 完成 的 ,分 类 
结果 将 会 被 写 人 到 MaxCompute 表 中 。 图 9-24 显示 了 获得 分 类 结果 的 过 程 ,将 数据 从 
MaxCompute 迁移 到 RDS 中 。 


Ndninistrator\Desktop\Aliyun\Analyzer>java -jar GetfnalyzeResult. jar 





‘s\Adninistrator\Desktop\Alivun\Analyzer> 
图 9-24 获得 分 类 结果 


在 图 9-25 所 示 的 浏览 推荐 新 闻 页 面 中 ,根据 用 户 ( 用 户 名 是 user13) 注 册 时 设 定 的 感 兴 
趣 新 闻 类 别 , 显 示 出 分 类 结果 。 单 击 页 面 上 的 “ 源 网 页 ”按钮 即 从 OSS 上 获得 原始 文件 ,而 
单 击 “ 新 闻 标题 "按钮 , 则 通过 URL 访问 在 线 页 面 。 

当然 ,在 个 性 化 新 闻 推荐 系统 中 基于 云 的 开发 部 署 只 是 为 了 满足 系统 在 面 对 大 量 用 户 、 
大 量 数 据 情况 下 的 扩展 性 、 可 靠 性 等 性 能 需求 。 而 在 大 数据 分 析 应 用 中 还 有 更 重要 的 事 就 
是 关于 数据 挖掘 分 析 的 准确 性 。 在 本 系统 中 ,就 是 新 闻 分 类 的 准确 性 问题 。 

在 第 6 章 提 到 了 目前 已 有 的 多 种 分 类 器 ,它们 在 解决 不 同类 型 的 分 类 问题 上 ,可 得 到 的 
分 类 性 能 也 并 不 一 样 。 一 方面 .没有 一 个 分 类 器 在 所 有 数据 集 上 能 够 获得 最 好 的 性 能 ,因此 
这 就 需要 在 系统 分 析 测 试 阶段 对 所 要 解决 的 问题 进行 充分 的 实验 研究 ,比较 各 种 分 类 器 的 
最 佳 性 能 ,从 而 确定 系统 所 要 使 用 的 分 类 方法 。 另 一 方面 ,在 确定 分 类 器 之 后 ,还 会 存在 两 
个 关键 的 问题 会 影响 分 类 性 能 。 

第 一 个 问题 是 分 类 方法 的 相关 参数 。 大 部 分 分 类 器 都 存在 多 个 可 调整 的 参数 ,而 参数 
可 能 对 分 类 性 能 有 一 定 影响 。 例 如 ,对 于 KNN 分 类 方法 ,& 是 一 个 关键 参数 ; 对 于 SVM 分 
类 器 而 言 , 有 惩罚 因子 、 核 函数 等 。 
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Pesonal EE 
用 户 user13, 欢 迎 您 ! 








ESE 
| 财经 
。 小 辉腾 到 底 怎 样 ? 试 呈 上 汽 大 众 辉 昂 -新 浪 汽车 2016-08-04 源 网 页 
。 主力 兵 空降 试 比亚迪 宋 盖 世 版 1.5TID- 新 浪 汽车 2016-08-09 源 网 页 
。 又 要 开启 无 敌 模式 》 试 驾 新 福特 收 虎 -新 浪 汽车 2016-08-06 天 网 页 
。 内 外 全 面 革新 疑似 全 新 哈弗 H6 谍 照 曝 光 - 新 浪 汽 车 2016-08-07 于 网 页 
| 时 政 
。 男子 哈雷 摩托 被 盗 朋友 圈 恳 赏 5 万 2 小 时 找 回 2016-08-10 | 
。 惊 呆 ! 长 沙 一 男子 为 偷 自行 车 锯 树 2016-08-10 于 网 页 
。 铲 车 故意 疯狂 撞击 轿车 致 1 死 1 伤 2016-08-10 El 


图 9-25 浏览 推荐 新 闻 页 面 


第 二 个 问题 是 分 类 器 的 更 新 。 针 对 一 些 数据 流 的 应 用 场景 ,即使 选 定 并 且 配 置 好 一 个 
分 类 器 后 ,该 分 类 器 并 不 一 定 在 整个 数据 流 的 分 类 中 都 是 保持 最 好 的 分 类 性 能 。 这 是 由 于 
数据 流 本 身 所 代表 的 模式 和 特征 也 是 会 改变 的 ,如 商场 销售 的 商品 在 不 同 季 节 是 不 同 的 。 

这 里 主要 针对 第 一 个 问题 ,说 明 如 何 利用 阿里 云 大 数据 平台 来 进行 分 类 器 的 选择 和 参 
数 优化 。 以 一 个 简单 的 示例 来 说 明 ,数据 集 来 自 Weka 自 带 的 weather 数据 ,其 应 用 场景 是 
根据 天 气 条 件 来 判断 是 否 适合 出 去 玩 。 天 气 条 件 有 4 个 特征 , 分别 是 outlook、 
temperature、humidity 和 windy, 同 时 有 一 个 人 工 标 注 的 结果 play ,表明 是 否 可 以 出 去 玩 。 
这 个 问题 就 是 一 个 二 分 类 问题 (是 、 否 )。 

为 了 进行 分 类 器 的 选择 ,可 以 在 阿里 云 大 数据 平台 中 构建 一 个 如 图 9-26 所 示 的 分 类 实 
验 。 最 上 面 的 节点 表示 保存 于 ODPS 的 数据 集 , 拆 分 节点 要 做 的 事 是 进行 交叉 验证 ,这 样 
可 以 充分 利用 数据 集 。 最 后 给 出 的 分 类 性 能 评估 是 在 多 次 的 交叉 验证 实验 上 的 平均 。 

在 流程 执行 完成 之 后 ,可 以 在 分 类 评估 节点 上 右 击 ,查看 评估 报告 。 其 中 有 多 种 指标 ， 
比较 常用 于 分 类 的 像 Precision、Recall 和 Fl。 因此 可 以 通过 实验 来 获得 这 些 性 能 指标 ,从 
而 选择 一 个 合适 的 分 类 器 。 

针对 本 章 的 应 用 来 说 ,由 于 词汇 数量 较 多 ,每 个 词汇 在 分 类 中 的 作用 有 一 定 差别 ,因此 
可 以 加 入 特征 选择 处 理 过 程 ,具体 流程 如 图 9-27 所 示 。 

原始 数据 通过 “过 滤 式 特征 选择 ”组 件 处 理 后 ,产生 两 个 输出 结果 : 一 是 生成 选择 之 后 
的 数据 集 ,保存 于 selecteddata 表 中 ; 二 是 生成 所 选择 的 特征 集 , 即 字段 名 列表 ,保存 于 
selectedfeature 表 中 。 这 样 ,后续 就 可 以 将 selecteddata 表 作 为 图 9-14 分 类 器 的 训练 流程 中 
的 输入 数据 ,训练 得 到 的 模型 就 是 经 过 特征 选择 之 后 的 。 训 练 数 据 经 过 特征 选择 处 理 之 后 ， 
对 应 的 待 分 类 样本 也 应 当 是 按照 相同 的 特征 进行 新 闻 文 本 的 特征 矩阵 表示 ,因此 图 9-16 对 
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[e) weather—l [©) 





4 ~、 
\ 
全 selecteddata—1 四) ee] selectedfeature—2 © 


图 9-27 特征 选择 


没有 标签 的 新 闻 进 行 分 类 的 流程 中 ,数据 节点 new_collector 中 的 样本 数据 也 就 应 当 与 训练 
时 所 选择 的 特征 一 致 。 这 样 , 就 要 求 对 疏 虫 获得 的 待 分 类 的 新 闻 文 本 的 词 频 和 矩阵 构造 时 , 需 
要 根据 selectedfeature 表 所 指定 的 词汇 来 计算 ,而 不 必 针 对 所 有 的 词汇 。 


1. 说 明 RDS、OSS、OTS、ODPS 的 含义 。 

2. 基于 阿里 云 大 数据 平台 设计 一 个 文本 分 类 系统 ,实现 对 互联 网 上 开放 的 分 类 文本 集 
的 分 类 (如 搜狗 的 文本 集 等 ) 。 

3. 某 公 司 准 备 利 用 阿里 云 构建 一 套 Web 服务 平台 ,提供 给 互联 网 用 户 进行 突 发 事件 
的 与 情 监测 。 该 监测 系统 为 用 户 提供 登录 定制 与 情事 件 类 型 .查看 与 情 变化 .事件 关键 词 、 
主题 演化 的 结果 报告 。 请 结合 本 书 第 6 章 和 本 章 介绍 的 知识 , 谈 谈 该 服务 平台 的 设计 思路 
和 关键 技术 。 
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